數學 - 回歸分析 - 第 2 章 一元線性回歸 - 2.5 殘差分析


2.5 殘差分析

一個線性回歸方程通過了 \(t\) 檢驗或 \(F\) 檢驗,只是表明變量 \(x\) 與變量 \(y\) 之間的線性關系是顯著的,或者說線性回歸方程是有效的,但這並不能保證數據擬合的效果好,也不能排除由於某些原因導致的數據不可靠,比如異常值的出現、周期性因素的干擾等。

只有當與模型中的殘差項有關的假定滿足時,才能放心使用回歸模型。因此,在利用回歸方程做分析和預測之前,應該用殘差圖幫助我們診斷回歸效果與樣本數據的質量,並檢查模型是否滿足基本假設。

2.5.1 殘差概念與殘差圖

定義 2.5.1 殘差

\(e_i = y_i - \widehat{y}_i\)

殘差是實際觀測值 \(y\) 與通過回歸方程給出的回歸值之差,因此殘差 \(e_i\) 可以看作誤差項 \(\varepsilon_i\) 的估計值。

  • 殘差項 \(e_i = y_i - \widehat{\beta}_0 - \widehat{\beta}_1 x_i\)

  • 誤差項 \(\varepsilon_i = y_i - \beta_0 - \beta_1 x_i\)

以自變量 \(x\) 作橫軸(或以因變量 \(y\) 作橫軸),以殘差作縱軸,將相應的殘差點畫在直角坐標系上,即可得到殘差圖,殘差圖幫助我們對數據質量做一些分析。下圖展示了一些常見的殘差圖,這些殘差圖各不相同,它們分別說明樣本數據的不同表現情況。

一般認為,如果一個回歸模型滿足所給出的基本假定,所有殘差應在 \(e=0\) 附近隨機變化,並在變化幅度不大的一個區域內。

圖(a)的情況,表明回歸模型滿足基本假設。

圖(b)的情況,表明 \(y\) 的觀測值的方差並不相同,而是隨着 \(x\) 的增大而增大。

圖(c)的情況,表明 \(y\)\(x\) 之間的關系並非線性關系,而是曲線關系。另一種可能性是 \(y\) 存在自相關。

圖(d)的情況,稱為蛛網現象,表明 \(y\) 存在自相關。

2.5.2 殘差平方和與回歸標准誤差

根據之前介紹的內容,定義殘差平方和為

\[\text{SSE} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 \tag{2.5.1} \]

用殘差平方和作為回歸誤差的估計,定義回歸標准平方誤差

\[\hat{\sigma}^2 = \frac{\text{SSE}}{n-2} \tag{2.5.2} \]

注意上式的分母是為了保證使 \(\hat{\sigma}^2\)\(\sigma^2\)無偏估計(分母為 \(n\) 時的點估計 \(\hat{\sigma}^2\) 是有偏估計)。此外,我們稱 \(\hat{\sigma}\)回歸標准誤差,表示為

\[\hat{\sigma} = \sqrt{\frac{\text{SSE}}{n-2}} = \sqrt{\frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n-2}} \tag{2.5.3} \]

2.5.3 殘差有關的性質

性質 2.5.1

\(E(e_i) = 0\)

證明:

\[\begin{align*} E(e_i) & = E(y_i) - E(\widehat{y}_i) \\ & = (\beta_0 + \beta_1 x_i) - (\beta_0 + \beta_1 x_i) = 0 \end{align*} \]

證畢。

性質 2.5.2

  • \(\text{cov} (y_i, \hat{\beta}_1) = \frac{x_i - \overline{x}}{L_{xx}} \sigma^2\)

  • \(\text{cov} (\overline{y}, \hat{\beta}_1) = 0\)

  • \(\text{var}(e_i) = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = (1-h_{ii})\sigma^2\)

  • $\text{cov} (y_i, \hat{y}_i) = $

  • \(E(\hat{\sigma}^2) = \sigma^2\)

證明:\(\hat{\beta}_1\) 的線性性質式 \((2.3.1)\),可以證明第一點

\[\text{cov} (y_i, \hat{\beta}_1) = \text{cov} (y_i, \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}}y_i) = \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}} \sigma^2 \]

由此證明第二點

\[\text{cov} (\overline{y}, \hat{\beta}_1) = \text{cov} (\frac{\sum_{i=1}^n y_i}{n} , \sum_{i=1}^n \frac{x_i -\overline{x}}{L_{xx}}y_i) = \frac{1}{n L_{xx}} \sum_{i=1}^n (x_i - \overline{x}) \, \text{var} (y_i) = 0 \]

由於對殘差有

\[e_i = y_i - \hat{y}_i = y_i - \overline{y} - \hat{\beta}_1 (x_i - \overline{x}) \]

由此可證明第三點

\[\begin{align*} \text{var} (e_i) & = \text{var} (y_i) + \text{var} (\overline{y}) + \text{var} (\hat{\beta}_1 (x_i - \overline{x})) - 2 \, \text{cov} (y_i, \overline{y}) - 2 \, \text{cov} (y_i, \hat{\beta}_1 (x_i - \overline{x})) + 2 \, \text{cov} (\overline{y}, \hat{\beta}_1 (x_i - \overline{x})) \\ & = \sigma^2 + \frac{1}{n} \sigma^2 + (x_i - \overline{x})^2 \frac{\sigma^2}{L_{xx}} - \frac{2}{n} \sigma^2 - 2 (x_i - \overline{x}) \frac{x_i - \overline{x}}{L_{xx}} \sigma^2 + 0 \\ & = \sigma^2 - \frac{1}{n} \sigma^2 - (x_i - \overline{x})^2 \frac{\sigma^2}{L_{xx}} \\ & = \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 \end{align*} \]

利用 \(y_i\)\(\hat{y}_i\) 的方差並結合第三點可以證明第四點。

由回歸標准誤差的定義式 \((2.5.2)\) 可證明第五點

\[E(\hat{\sigma}^2) = \frac{1}{n-2} \sum_{i=1}^n E(e_i^2) = \frac{1}{n-2} \sum_{i=1}^n \text{var} (e_i) = \frac{1}{n-2} \sum_{i=1}^n \left[ 1 - \frac{1}{n} - \frac{(x_i - \overline{x})^2}{L_{xx}}\right] \sigma^2 = \sigma^2 \]

證畢。

式中,\(h_{ii}\) 被稱為杠桿值且 \(0<h_{ii}<1\)。表示為

\[h_{ii} = \frac{1}{n} + \frac{(x_i - \overline{x})^2}{L_{xx}} \]

\(x_i\) 靠近 \(\overline{x}\) 時,\(h_{ii}\) 的值接近 \(0\),相應的殘差方差越大;當 \(x_i\) 遠離 \(\overline{x}\) 時,\(h_{ii}\) 的值接近 \(1\),相應的殘差方差越小。

也即是說,靠近 \(\overline{x}\) 的點相應的殘差方差越大,遠離 \(\overline{x}\) 的點相應的殘差方差越小。

性質 2.5.3

殘差滿足約束條件 \(\sum_{i=1}^n e_i = 0\)\(\sum_{i=1}^n x_i e_i = 0\)。這表明殘差 \(e_1\)\(e_2\)\(\cdots\)\(e_n\)是相關的,不是獨立的。

2.5.4 改進的殘差

殘差分析中,一般認為超過 \(\pm 2 \hat{\sigma}\)\(\pm 3 \hat{\sigma}\) 的殘差為異常值,考慮到普通殘差 \(e_1\)\(e_2\)\(\cdots\)\(e_n\) 的方差不等,用 \(e_i\) 做判斷和比較會帶來一些麻煩,我們引入標准化殘差和學生化殘差的概念,分別定義如下:

標准化殘差定義為

\[\text{ZRE}_i = \frac{e_i}{\hat{\sigma}} \tag{2.5.4} \]

更為重要的是學生化殘差被定義為

\[\text{SRE}_i = \frac{e_i}{\hat{\sigma} \sqrt{1-h_{ii}}} \tag{2.5.5} \]

標准化殘差使殘差具有可比性,\(\left| \text{ZRE}_i \right| > 3\) 的相應觀測值判定為異常值,這簡化了判定工作。而學生化殘差進一步解決了方差不等的問題,因此在尋找異常值時,用學生化殘差優於用普通殘差,\(\left| \text{SRE}_i \right| > 3\) 的相應觀測值判定為異常值。

學生化殘差的構造公式類似於 \(t\) 檢驗公式,因而把式 \((2.5.5)\) 稱為學生化殘差。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM