数学 - 回归分析 - 第 2 章 一元线性回归 - 2.5 残差分析


2.5 残差分析

一个线性回归方程通过了 \(t\) 检验或 \(F\) 检验,只是表明变量 \(x\) 与变量 \(y\) 之间的线性关系是显著的,或者说线性回归方程是有效的,但这并不能保证数据拟合的效果好,也不能排除由于某些原因导致的数据不可靠,比如异常值的出现、周期性因素的干扰等。

只有当与模型中的残差项有关的假定满足时,才能放心使用回归模型。因此,在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果与样本数据的质量,并检查模型是否满足基本假设。

2.5.1 残差概念与残差图

定义 2.5.1 残差

\(e_i = y_i - \widehat{y}_i\)

残差是实际观测值 \(y\) 与通过回归方程给出的回归值之差,因此残差 \(e_i\) 可以看作误差项 \(\varepsilon_i\) 的估计值。

  • 残差项 \(e_i = y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\)

  • 误差项 \(\varepsilon_i = y_i - \beta_0 - \beta_1 x_i\)

以自变量 \(x\) 作横轴(或以因变量 \(y\) 作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,即可得到残差图,残差图帮助我们对数据质量做一些分析。下图展示了一些常见的残差图,这些残差图各不相同,它们分别说明样本数据的不同表现情况。

一般认为,如果一个回归模型满足所给出的基本假定,所有残差应在 \(e=0\) 附近随机变化,并在变化幅度不大的一个区域内。

图(a)的情况,表明回归模型满足基本假设。

图(b)的情况,表明 \(y\) 的观测值的方差并不相同,而是随着 \(x\) 的增大而增大。

图(c)的情况,表明 \(y\)\(x\) 之间的关系并非线性关系,而是曲线关系。另一种可能性是 \(y\) 存在自相关。

图(d)的情况,称为蛛网现象,表明 \(y\) 存在自相关。

2.5.2 残差平方和与回归标准误差

根据之前介绍的内容,定义残差平方和为

\[\text{SSE} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 \tag{2.5.1} \]

用残差平方和作为回归误差的估计,定义回归标准平方误差

\[\hat{\sigma}^2 = \frac{\text{SSE}}{n-2} \tag{2.5.2} \]

注意上式的分母是为了保证使 \(\hat{\sigma}^2\)\(\sigma^2\)无偏估计(分母为 \(n\) 时的点估计 \(\hat{\sigma}^2\) 是有偏估计)。此外,我们称 \(\hat{\sigma}\)回归标准误差,表示为

\[\hat{\sigma} = \sqrt{\frac{\text{SSE}}{n-2}} = \sqrt{\frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n-2}} \tag{2.5.3} \]

2.5.3 残差有关的性质

性质 2.5.1

\(E(e_i) = 0\)

证明:

\[\begin{align*} E(e_i) & = E(y_i) - E(\widehat{y}_i) \\ & = (\beta_0 + \beta_1 x_i) - (\beta_0 + \beta_1 x_i) = 0 \end{align*} \]

证毕。

性质 2.5.2

  • \(\text{cov} (y_i, \hat{\beta}_1) = \frac{x_i - \overline{x}}{L_{xx}} \sigma^2\)

  • \(\text{cov} (\overline{y}, \hat{\beta}_1) = 0\)

  • \(\text{var}(e_i) = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = (1-h_{ii})\sigma^2\)

  • $\text{cov} (y_i, \hat{y}_i) = $

  • \(E(\hat{\sigma}^2) = \sigma^2\)

证明:\(\hat{\beta}_1\) 的线性性质式 \((2.3.1)\),可以证明第一点

\[\text{cov} (y_i, \hat{\beta}_1) = \text{cov} (y_i, \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}}y_i) = \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}} \sigma^2 \]

由此证明第二点

\[\text{cov} (\overline{y}, \hat{\beta}_1) = \text{cov} (\frac{\sum_{i=1}^n y_i}{n} , \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}}y_i) = \frac{1}{n L_{xx}} \sum_{i=1}^n (x_i - \overline{x}) \, \text{var} (y_i) = 0 \]

由于对残差有

\[e_i = y_i - \hat{y}_i = y_i - \overline{y} - \hat{\beta}_1 (x_i - \overline{x}) \]

由此可证明第三点

\[\begin{align*} \text{var} (e_i) & = \text{var} (y_i) + \text{var} (\overline{y}) + \text{var} (\hat{\beta}_1 (x_i - \overline{x})) - 2 \, \text{cov} (y_i, \overline{y}) - 2 \, \text{cov} (y_i, \hat{\beta}_1 (x_i - \overline{x})) + 2 \, \text{cov} (\overline{y}, \hat{\beta}_1 (x_i - \overline{x})) \\ & = \sigma^2 + \frac{1}{n} \sigma^2 + (x_i - \overline{x})^2 \frac{\sigma^2}{L_{xx}} - \frac{2}{n} \sigma^2 - 2 (x_i - \overline{x}) \frac{x_i - \overline{x}}{L_{xx}} \sigma^2 + 0 \\ & = \sigma^2 - \frac{1}{n} \sigma^2 - (x_i - \overline{x})^2 \frac{\sigma^2}{L_{xx}} \\ & = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 \end{align*} \]

利用 \(y_i\)\(\hat{y}_i\) 的方差并结合第三点可以证明第四点。

由回归标准误差的定义式 \((2.5.2)\) 可证明第五点

\[E(\hat{\sigma}^2) = \frac{1}{n-2} \sum_{i=1}^n E(e_i^2) = \frac{1}{n-2} \sum_{i=1}^n \text{var} (e_i) = \frac{1}{n-2} \sum_{i=1}^n \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = \sigma^2 \]

证毕。

式中,\(h_{ii}\) 被称为杠杆值且 \(0<h_{ii}<1\)。表示为

\[h_{ii} = \frac{1}{n} + \frac{(x_i - \overline{x})^2}{L_{xx}} \]

\(x_i\) 靠近 \(\overline{x}\) 时,\(h_{ii}\) 的值接近 \(0\),相应的残差方差越大;当 \(x_i\) 远离 \(\overline{x}\) 时,\(h_{ii}\) 的值接近 \(1\),相应的残差方差越小。

也即是说,靠近 \(\overline{x}\) 的点相应的残差方差越大,远离 \(\overline{x}\) 的点相应的残差方差越小。

性质 2.5.3

残差满足约束条件 \(\sum_{i=1}^n e_i = 0\)\(\sum_{i=1}^n x_i e_i = 0\)。这表明残差 \(e_1\)\(e_2\)\(\cdots\)\(e_n\)是相关的,不是独立的。

2.5.4 改进的残差

残差分析中,一般认为超过 \(\pm 2 \hat{\sigma}\)\(\pm 3 \hat{\sigma}\) 的残差为异常值,考虑到普通残差 \(e_1\)\(e_2\)\(\cdots\)\(e_n\) 的方差不等,用 \(e_i\) 做判断和比较会带来一些麻烦,我们引入标准化残差和学生化残差的概念,分别定义如下:

标准化残差定义为

\[\text{ZRE}_i = \frac{e_i}{\hat{\sigma}} \tag{2.5.4} \]

更为重要的是学生化残差被定义为

\[\text{SRE}_i = \frac{e_i}{\hat{\sigma} \sqrt{1-h_{ii}}} \tag{2.5.5} \]

标准化残差使残差具有可比性,\(\left| \text{ZRE}_i \right| > 3\) 的相应观测值判定为异常值,这简化了判定工作。而学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于用普通残差,\(\left| \text{SRE}_i \right| > 3\) 的相应观测值判定为异常值。

学生化残差的构造公式类似于 \(t\) 检验公式,因而把式 \((2.5.5)\) 称为学生化残差。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM