如何理解残差与误差 | Zhen Lu – Zhen Lu

Author

Published

Tuesday, April 28, 2020

线性回归因变量的观测值是样本真实数据，估计值是回归模型估计出来的预测值，二者的差别称为残差。误差项表示对因变量而言，模型自变量无法解释的部分，通常假定误差服从均值为0的分布。

注意：残差与误差项不同，残差是针对样本真实数据而言，可以视为对总体模型中误差项的估计。

残差越小，说明拟合的回归模型越好，模型的预测值更加贴近实际值。

虽然我们可能会更关心回归系数的大小，但实际上残差能告诉我们这些系数的估计值是否可靠，而这一点更为重要，回归系数无论表现多好，如果其不能稳定可靠，我们的计算和预测是没有意义的。

因此，在数据分析中一定要学会观察残差图，任何模型拟合的问题基本上都能在残差图中体现出来。

一条对数据点拟合较好的回归线必然穿过所有数据点的中央，所有的点围绕这条线随机波动，反映在残差中就应该是围绕0随机波动，不应该有任何趋势。如果残差能看出趋势，则说明模型拟合肯定有问题。

---
title: "如何理解残差与误差"
date: 2020-04-28
description: "residual error"
image: "https://cdn.jsdelivr.net/gh/Leslie-Lu/WeChatOfficialAccount/img/202408291336046.webp"
categories:
  - biostatistics
  - residual error
format:
  html: 
    shift-heading-level-by: 1
    include-in-header:
      - text: |
          <style type="text/css">
          hr.dinkus {
              width: 50px;
              margin: 2em auto 2em;
              border-top: 5px dotted #454545;
          }
          
          div.column-margin+hr.dinkus {
              margin: 1em auto 2em;
          }
          </style>
---

线性回归因变量的观测值是样本真实数据，估计值是回归模型估计出来的预测值，二者的差别称为残差。误差项表示对因变量而言，模型自变量无法解释的部分，通常假定误差服从均值为0的分布。   

注意：残差与误差项不同，残差是针对样本真实数据而言，可以视为对总体模型中误差项的估计。    

残差越小，说明拟合的回归模型越好，模型的预测值更加贴近实际值。

虽然我们可能会更关心回归系数的大小，但实际上残差能告诉我们这些系数的估计值是否可靠，而这一点更为重要，回归系数无论表现多好，如果其不能稳定可靠，我们的计算和预测是没有意义的。

因此，在数据分析中一定要学会观察残差图，任何模型拟合的问题基本上都能在残差图中体现出来。

一条对数据点拟合较好的回归线必然穿过所有数据点的中央，所有的点围绕这条线随机波动，反映在残差中就应该是围绕0随机波动，不应该有任何趋势。如果残差能看出趋势，则说明模型拟合肯定有问题。