2.5 殘差分析
一個線性回歸方程通過了 \(t\) 檢驗或 \(F\) 檢驗,只是表明變量 \(x\) 與變量 \(y\) 之間的線性關系是顯著的,或者說線性回歸方程是有效的,但這並不能保證數據擬合的效果好,也不能排除由於某些原因導致的數據不可靠,比如異常值的出現、周期性因素的干擾等。
只有當與模型中的殘差項有關的假定滿足時,才能放心使用回歸模型。因此,在利用回歸方程做分析和預測之前,應該用殘差圖幫助我們診斷回歸效果與樣本數據的質量,並檢查模型是否滿足基本假設。
2.5.1 殘差概念與殘差圖
定義 2.5.1 殘差
\(e_i = y_i - \widehat{y}_i\)
殘差是實際觀測值 \(y\) 與通過回歸方程給出的回歸值之差,因此殘差 \(e_i\) 可以看作誤差項 \(\varepsilon_i\) 的估計值。
-
殘差項 \(e_i = y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\)
-
誤差項 \(\varepsilon_i = y_i - \beta_0 - \beta_1 x_i\)
以自變量 \(x\) 作橫軸(或以因變量 \(y\) 作橫軸),以殘差作縱軸,將相應的殘差點畫在直角坐標系上,即可得到殘差圖,殘差圖幫助我們對數據質量做一些分析。下圖展示了一些常見的殘差圖,這些殘差圖各不相同,它們分別說明樣本數據的不同表現情況。
一般認為,如果一個回歸模型滿足所給出的基本假定,所有殘差應在 \(e=0\) 附近隨機變化,並在變化幅度不大的一個區域內。

圖(a)的情況,表明回歸模型滿足基本假設。
圖(b)的情況,表明 \(y\) 的觀測值的方差並不相同,而是隨着 \(x\) 的增大而增大。
圖(c)的情況,表明 \(y\) 與 \(x\) 之間的關系並非線性關系,而是曲線關系。另一種可能性是 \(y\) 存在自相關。
圖(d)的情況,稱為蛛網現象,表明 \(y\) 存在自相關。
2.5.2 殘差平方和與回歸標准誤差
根據之前介紹的內容,定義殘差平方和為
用殘差平方和作為回歸誤差的估計,定義回歸標准平方誤差:
注意上式的分母是為了保證使 \(\hat{\sigma}^2\) 是 \(\sigma^2\) 的無偏估計(分母為 \(n\) 時的點估計 \(\hat{\sigma}^2\) 是有偏估計)。此外,我們稱 \(\hat{\sigma}\) 是回歸標准誤差,表示為
2.5.3 殘差有關的性質
性質 2.5.1
\(E(e_i) = 0\)
證明:
證畢。
性質 2.5.2
\(\text{cov} (y_i, \hat{\beta}_1) = \frac{x_i - \overline{x}}{L_{xx}} \sigma^2\)
\(\text{cov} (\overline{y}, \hat{\beta}_1) = 0\)
\(\text{var}(e_i) = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = (1-h_{ii})\sigma^2\)
$\text{cov} (y_i, \hat{y}_i) = $
\(E(\hat{\sigma}^2) = \sigma^2\)
證明:由 \(\hat{\beta}_1\) 的線性性質式 \((2.3.1)\),可以證明第一點
由此證明第二點
由於對殘差有
由此可證明第三點
利用 \(y_i\) 和 \(\hat{y}_i\) 的方差並結合第三點可以證明第四點。
由回歸標准誤差的定義式 \((2.5.2)\) 可證明第五點
證畢。
式中,\(h_{ii}\) 被稱為杠桿值且 \(0<h_{ii}<1\)。表示為
當 \(x_i\) 靠近 \(\overline{x}\) 時,\(h_{ii}\) 的值接近 \(0\),相應的殘差方差越大;當 \(x_i\) 遠離 \(\overline{x}\) 時,\(h_{ii}\) 的值接近 \(1\),相應的殘差方差越小。
也即是說,靠近 \(\overline{x}\) 的點相應的殘差方差越大,遠離 \(\overline{x}\) 的點相應的殘差方差越小。
性質 2.5.3
殘差滿足約束條件 \(\sum_{i=1}^n e_i = 0\),\(\sum_{i=1}^n x_i e_i = 0\)。這表明殘差 \(e_1\)、\(e_2\)、\(\cdots\)、\(e_n\)是相關的,不是獨立的。
2.5.4 改進的殘差
殘差分析中,一般認為超過 \(\pm 2 \hat{\sigma}\) 或 \(\pm 3 \hat{\sigma}\) 的殘差為異常值,考慮到普通殘差 \(e_1\)、\(e_2\)、\(\cdots\)、\(e_n\) 的方差不等,用 \(e_i\) 做判斷和比較會帶來一些麻煩,我們引入標准化殘差和學生化殘差的概念,分別定義如下:
標准化殘差定義為
更為重要的是學生化殘差被定義為
標准化殘差使殘差具有可比性,\(\left| \text{ZRE}_i \right| > 3\) 的相應觀測值判定為異常值,這簡化了判定工作。而學生化殘差進一步解決了方差不等的問題,因此在尋找異常值時,用學生化殘差優於用普通殘差,\(\left| \text{SRE}_i \right| > 3\) 的相應觀測值判定為異常值。
學生化殘差的構造公式類似於 \(t\) 檢驗公式,因而把式 \((2.5.5)\) 稱為學生化殘差。
