【统计学中残差平方和】在统计学中,残差平方和(Residual Sum of Squares,简称RSS)是一个重要的概念,常用于衡量回归模型的拟合效果。它表示实际观测值与模型预测值之间的差异总和的平方。通过分析RSS,可以评估模型的准确性,并为模型选择提供依据。
一、什么是残差平方和?
残差平方和是指在回归分析中,所有数据点的残差(即实际观测值与模型预测值之差)的平方和。数学上,对于一个线性回归模型:
$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i
$$
其中,$ y_i $ 是实际观测值,$ \hat{y}_i $ 是模型预测值,$ \epsilon_i = y_i - \hat{y}_i $ 是残差。则残差平方和为:
$$
RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
二、残差平方和的作用
1. 评估模型拟合程度:RSS越小,说明模型对数据的拟合越好。
2. 比较不同模型:在多个模型中,可以选择RSS较小的模型作为更优的选择。
3. 计算决定系数:在计算R²(决定系数)时,RSS是关键组成部分之一。
三、残差平方和与其他指标的关系
| 指标 | 定义 | 与RSS的关系 |
| 总平方和(SST) | 所有观测值与均值的平方差之和 | $ SST = SSR + RSS $ |
| 回归平方和(SSR) | 模型解释的变异部分 | $ SST = SSR + RSS $ |
| 决定系数(R²) | 模型解释的变异比例 | $ R^2 = 1 - \frac{RSS}{SST} $ |
四、应用实例
假设我们有一个简单的线性回归模型,用于预测房屋价格。根据样本数据,计算出的残差平方和如下:
| 房屋编号 | 实际价格(万元) | 预测价格(万元) | 残差(万元) | 残差平方 |
| 1 | 50 | 48 | 2 | 4 |
| 2 | 60 | 62 | -2 | 4 |
| 3 | 70 | 68 | 2 | 4 |
| 4 | 80 | 79 | 1 | 1 |
| 5 | 90 | 92 | -2 | 4 |
总残差平方和(RSS) = 4 + 4 + 4 + 1 + 4 = 17(万元²)
五、总结
残差平方和是衡量回归模型拟合优度的重要指标。它反映了模型未能解释的数据变异部分。在实际应用中,应结合其他指标如总平方和(SST)、回归平方和(SSR)和决定系数(R²)进行综合分析,以全面评价模型的性能。
通过合理使用RSS,可以优化模型结构,提高预测精度,从而更好地服务于数据分析和决策支持。


