2.5 残差分析
一个线性回归方程通过了 \(t\) 检验或 \(F\) 检验,只是表明变量 \(x\) 与变量 \(y\) 之间的线性关系是显著的,或者说线性回归方程是有效的,但这并不能保证数据拟合的效果好,也不能排除由于某些原因导致的数据不可靠,比如异常值的出现、周期性因素的干扰等。
只有当与模型中的残差项有关的假定满足时,才能放心使用回归模型。因此,在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果与样本数据的质量,并检查模型是否满足基本假设。
2.5.1 残差概念与残差图
定义 2.5.1 残差
\(e_i = y_i - \widehat{y}_i\)
残差是实际观测值 \(y\) 与通过回归方程给出的回归值之差,因此残差 \(e_i\) 可以看作误差项 \(\varepsilon_i\) 的估计值。
-
残差项 \(e_i = y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\)
-
误差项 \(\varepsilon_i = y_i - \beta_0 - \beta_1 x_i\)
以自变量 \(x\) 作横轴(或以因变量 \(y\) 作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,即可得到残差图,残差图帮助我们对数据质量做一些分析。下图展示了一些常见的残差图,这些残差图各不相同,它们分别说明样本数据的不同表现情况。
一般认为,如果一个回归模型满足所给出的基本假定,所有残差应在 \(e=0\) 附近随机变化,并在变化幅度不大的一个区域内。
图(a)的情况,表明回归模型满足基本假设。
图(b)的情况,表明 \(y\) 的观测值的方差并不相同,而是随着 \(x\) 的增大而增大。
图(c)的情况,表明 \(y\) 与 \(x\) 之间的关系并非线性关系,而是曲线关系。另一种可能性是 \(y\) 存在自相关。
图(d)的情况,称为蛛网现象,表明 \(y\) 存在自相关。
2.5.2 残差平方和与回归标准误差
根据之前介绍的内容,定义残差平方和为
用残差平方和作为回归误差的估计,定义回归标准平方误差:
注意上式的分母是为了保证使 \(\hat{\sigma}^2\) 是 \(\sigma^2\) 的无偏估计(分母为 \(n\) 时的点估计 \(\hat{\sigma}^2\) 是有偏估计)。此外,我们称 \(\hat{\sigma}\) 是回归标准误差,表示为
2.5.3 残差有关的性质
性质 2.5.1
\(E(e_i) = 0\)
证明:
证毕。
性质 2.5.2
\(\text{cov} (y_i, \hat{\beta}_1) = \frac{x_i - \overline{x}}{L_{xx}} \sigma^2\)
\(\text{cov} (\overline{y}, \hat{\beta}_1) = 0\)
\(\text{var}(e_i) = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = (1-h_{ii})\sigma^2\)
$\text{cov} (y_i, \hat{y}_i) = $
\(E(\hat{\sigma}^2) = \sigma^2\)
证明:由 \(\hat{\beta}_1\) 的线性性质式 \((2.3.1)\),可以证明第一点
由此证明第二点
由于对残差有
由此可证明第三点
利用 \(y_i\) 和 \(\hat{y}_i\) 的方差并结合第三点可以证明第四点。
由回归标准误差的定义式 \((2.5.2)\) 可证明第五点
证毕。
式中,\(h_{ii}\) 被称为杠杆值且 \(0<h_{ii}<1\)。表示为
当 \(x_i\) 靠近 \(\overline{x}\) 时,\(h_{ii}\) 的值接近 \(0\),相应的残差方差越大;当 \(x_i\) 远离 \(\overline{x}\) 时,\(h_{ii}\) 的值接近 \(1\),相应的残差方差越小。
也即是说,靠近 \(\overline{x}\) 的点相应的残差方差越大,远离 \(\overline{x}\) 的点相应的残差方差越小。
性质 2.5.3
残差满足约束条件 \(\sum_{i=1}^n e_i = 0\),\(\sum_{i=1}^n x_i e_i = 0\)。这表明残差 \(e_1\)、\(e_2\)、\(\cdots\)、\(e_n\)是相关的,不是独立的。
2.5.4 改进的残差
残差分析中,一般认为超过 \(\pm 2 \hat{\sigma}\) 或 \(\pm 3 \hat{\sigma}\) 的残差为异常值,考虑到普通残差 \(e_1\)、\(e_2\)、\(\cdots\)、\(e_n\) 的方差不等,用 \(e_i\) 做判断和比较会带来一些麻烦,我们引入标准化残差和学生化残差的概念,分别定义如下:
标准化残差定义为
更为重要的是学生化残差被定义为
标准化残差使残差具有可比性,\(\left| \text{ZRE}_i \right| > 3\) 的相应观测值判定为异常值,这简化了判定工作。而学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于用普通残差,\(\left| \text{SRE}_i \right| > 3\) 的相应观测值判定为异常值。
学生化残差的构造公式类似于 \(t\) 检验公式,因而把式 \((2.5.5)\) 称为学生化残差。