【相关系数怎么算】在数据分析和统计学中,相关系数是一个重要的指标,用于衡量两个变量之间的线性关系。它可以帮助我们判断两个变量是正相关、负相关还是无明显相关性。本文将简要介绍相关系数的基本概念,并通过一个示例表格来展示其计算过程。
一、什么是相关系数?
相关系数(Correlation Coefficient)是一种度量两个变量之间线性关系强度和方向的统计量。最常用的相关系数是皮尔逊相关系数(Pearson Correlation Coefficient),它的取值范围在 -1 到 +1 之间:
- +1:完全正相关
- 0:无线性相关
- -1:完全负相关
二、相关系数的计算公式
皮尔逊相关系数的计算公式为:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $ 是样本数量
- $ x $ 和 $ y $ 分别是两个变量的观测值
- $ \sum xy $ 是 $ x $ 与 $ y $ 的乘积之和
- $ \sum x $ 和 $ \sum y $ 是各自变量的总和
- $ \sum x^2 $ 和 $ \sum y^2 $ 是各自变量平方后的总和
三、相关系数的计算步骤
1. 收集两组数据(x, y)
2. 计算每对数据的乘积 $ xy $
3. 计算 $ x $、$ y $、$ x^2 $、$ y^2 $ 的总和
4. 将这些值代入公式进行计算
5. 得出相关系数 $ r $,并根据其数值判断相关性
四、示例计算(表格形式)
| 序号 | x | y | x² | y² | xy |
| 1 | 2 | 3 | 4 | 9 | 6 |
| 2 | 4 | 5 | 16 | 25 | 20 |
| 3 | 6 | 7 | 36 | 49 | 42 |
| 4 | 8 | 9 | 64 | 81 | 72 |
| 5 | 10 | 11 | 100 | 121 | 110 |
求和结果:
- $ \sum x = 30 $
- $ \sum y = 35 $
- $ \sum x^2 = 220 $
- $ \sum y^2 = 285 $
- $ \sum xy = 250 $
- $ n = 5 $
代入公式计算:
$$
r = \frac{5 \times 250 - (30 \times 35)}{\sqrt{[5 \times 220 - 30^2][5 \times 285 - 35^2]}} = \frac{1250 - 1050}{\sqrt{(1100 - 900)(1425 - 1225)}} = \frac{200}{\sqrt{200 \times 200}} = \frac{200}{200} = 1
$$
结论: 相关系数为 1,表示 x 和 y 之间存在完全正相关关系。
五、总结
- 相关系数可以用来判断两个变量之间的线性关系。
- 皮尔逊相关系数是最常用的计算方法。
- 通过整理数据并代入公式,可以快速得出相关系数。
- 相关系数的范围在 -1 到 +1 之间,数值越接近 ±1,说明相关性越强。
如需进一步分析非线性关系或不同类型的变量,还可以使用斯皮尔曼等级相关系数或肯德尔等级相关系数等方法。


