导读 Pearson相关系数是衡量两个变量线性关系强度的经典指标,用符号r表示。它的计算公式有多种等价形式,帮助我们从不同角度理解其意义。第一种...
Pearson相关系数是衡量两个变量线性关系强度的经典指标,用符号r表示。它的计算公式有多种等价形式,帮助我们从不同角度理解其意义。第一种是经典的协方差与标准差之比:
r = Cov(X, Y) / (σₓ × σᵧ),其中Cov(X, Y)表示协方差,而σₓ和σᵧ分别是X和Y的标准差。第二种形式是通过均值计算的差值乘积和:
r = Σ[(Xᵢ - X̄)(Yᵢ - Ȳ)] / √[Σ(Xᵢ - X̄)² × Σ(Yᵢ - Ȳ)²]。第三种利用标准化后的数据计算:
r = Σ(Zₓ × Zᵧ) / n,其中Zₓ和Zᵧ是标准化后的数据。第四种则结合了概率论的期望值表达:
r = E[(X - μₓ)(Y - μᵧ)] / σₓσᵧ。
想快速实现这些公式?用Python轻松搞定!以下是基于Pandas库的代码示例:
```python
import pandas as pd
def pearson_corr(df, col1, col2):
return df[[col1, col2]].corr().iloc[0, 1]
```
用法简单直观,直接传入DataFrame和两列名即可获得结果。试试吧,你会发现Pearson相关系数的魅力!✨