线性回归因变量的观测值是样本真实数据,估计值是回归模型估计出来的预测值,二者的差别称为残差。误差项表示对因变量而言,模型自变量无法解释的部分,通常假定误差服从均值为0的分布。
注意:残差与误差项不同,残差是针对样本真实数据而言,可以视为对总体模型中误差项的估计。
残差越小,说明拟合的回归模型越好,模型的预测值更加贴近实际值。
虽然我们可能会更关心回归系数的大小,但实际上残差能告诉我们这些系数的估计值是否可靠,而这一点更为重要,回归系数无论表现多好,如果其不能稳定可靠,我们的计算和预测是没有意义的。
因此,在数据分析中一定要学会观察残差图,任何模型拟合的问题基本上都能在残差图中体现出来。
一条对数据点拟合较好的回归线必然穿过所有数据点的中央,所有的点围绕这条线随机波动,反映在残差中就应该是围绕0随机波动,不应该有任何趋势。如果残差能看出趋势,则说明模型拟合肯定有问题。