根據我們之前的討論,任意給定一組\((X,Y)\)的觀測值,都可以計算回歸。但是否回歸都是有效的?直觀說來,我們會將回歸方程直接繪制在圖像上,看樣本點圍繞回歸方程的偏差程度大不大。但是繪圖、看圖說話總要動腦,直接給一個指標告訴大家好還是不好就能省掉許多的工作,這篇文章首先來探究這樣的指標,再討論回歸方程的使用。
1、擬合優度與可決系數
如果一個回歸方程的效果很好,殘差就應該很小,但是這個小需要一個相對的標准進行衡量。如果只是看絕對數的大小,則樣本容量小的回歸方程肯定有更小的殘差平方和,但擬合優度卻不一定好。為了找到殘差的對比指標,我們引入一個重要的等式:平方和分解式。這個等式刻畫了在計算出回歸方程后,離差平方和的一種分解關系,其內容如下:
其中\(\sum_{i=1}^n(Y_i-\bar Y)^2\)被稱為離差平方和,它就是用於計算樣本方差的原始部分;\(\sum_{i=1}^n(Y_i-\hat Y_i)^2\)即殘差平方和,我們總希望它盡可能小,而后面的\(\sum_{i=1}^n(\hat Y_i-\bar Y)^2\)就被我們稱為回歸平方和。這個式子的直觀意義是,總體的方差可以被分解為確定性部分(系統性部分)與非確定性部分,回歸平方和就是確定性部分,如果它越大,回歸方程的解釋能力就越強,殘差平方和就是非確定性部分。
對這個式子的證明如下:
只要證明交叉部分為0即可,即
這里又一次用到了OLS估計的條件,即\(\sum e_i=\sum X_ie_i=0\),這也說明了平方和分解式僅對OLS估計得到的回歸函數生效。
有了平方和分解式,我們要衡量殘差平方和的大小就有了標度——可以用殘差平方和在離差平方和中的占比來表示。現在我們引入一些代號來簡約地表示平方和分解式:
這里:\({\rm TSS}\)為離差平方和(Total Sum Square),\({\rm RSS}\)為殘差平方和(Residual Sum Square),\({\rm ESS}\)為回歸平方和(Explained Sum Square)也就是可以用回歸方程所解釋的平方和。如果擬合程度比較高,則\({\rm RSS}/{\rm TSS}\)就會比較小,所以定義可決系數來表示回歸方程的擬合效果:
\(R^2\)越大,則回歸函數的擬合程度就越高,如果\(R^2=1\),則完全不存在隨機性。
事實上,平方和分解式屬於數理統計里方差分析的一部分,且可以從二元拓展到多元,導出總離差陣與組內離差陣、組間離差陣之間的關系,但在這里不需要多作擴展。有關於平方和的分布問題,也在多元情況再加以討論,這是一類比較實用的隨機變量。
2、一元線性回歸下可決系數的計算
對於一元線性回歸問題,可決系數\(R^2\)有着更為簡便的計算方式。現在由(3.5),
引入中心化數據\(x_i=X_i-\bar X\)和\(y_i=Y_i-\bar Y\),就有
於是我們可以只使用回歸系數與這兩個用於計算回歸系數的數據計算可決系數\(R^2\)。
並且,在一元線性回歸情形下\(R^2\)還與\(X,Y\)的相關系數\(r\)有關,我們知道
所以
而
所以
這就將可決系數與相關系數之間建立了巧妙的聯系。
在我們之前的案例中,還剩下一些數據沒有處理,我們現在來看看這些數據。

平方和分解式中的TSS、ESS、RSS分別代表圖上的Total SS、Model SS、Residual SS。用Model SS除以Total SS得到可決系數,右上角的R-square就是可決系數\(R^2\),只有0.2053,屬於比較低的,所以擬合效果並不是很好。圖示如下:

前面得到的回歸分析表中,還有一系列參數沒有解釋,除了Number of obs顯然是觀測數以外,F(1, 6)、Prob > F、Adj R-square、Root MSE都是什么意思?df、MS、Std.Err又代表什么?這些問題在我們復習到多元線性回歸的時候會一起討論。
3、用回歸方程進行預測
如何使用回歸方程進行預測?這看起來是一個不怎么需要思考的問題——獲得解釋變量\(X\)的水平,代入樣本回歸線直接算出預測值\(\hat Y=\hat\beta_0+\hat\beta_1X\)即可。但站在數理統計的角度來看,這樣的回答是不能令人滿意的,因為我們知道,點估計盡管具有一系列優良性質,但是它的預測准確率為0,反映出的信息不足。
舉個例子,通過我們的預測,在\(x_0\)水平下的預測值是\(y_0\),但我們實際觀測時很可能得不到\(y_0\)這個精確的值。那我們要怎么評估這個模型是異常的呢?出現\(y_0-1\)是正常情況嗎?出現\(y_0-100\)呢?這些問題點估計是難以回答的,所以我們需要區間估計。
由於我們知道了\(\hat\beta_0,\hat\beta_1\)的分布,也知道了\(\hat\beta_0,\hat\beta_1\)的相關關系,現在對於給定的觀測值\(X_0\),我們就可以計算與之對應的\(Y_0\)的分布。由於
如果用\(\hat\beta_0,\hat\beta_1\)作為\(\beta_0,\beta_1\)的估計,就有
由於\(\hat\beta_0,\hat\beta_1\)是線性無偏的,且二者通過底層隨機誤差項相關聯,所以線性組合仍然是正態分布,且
結合其正態性,就有
由於\(Y_0\)的真值只依賴於\(\mu_0\),\(\hat Y_0\)的值只依賴於\(\hat\beta_1,\hat\beta_0\),也就只依賴於\(\mu_1,\cdots,\mu_n\),所以\(Y_0\)與\(\hat Y_0\)實際上是相互獨立的,我們可以求預測誤差的分布:
從而在給定\(\hat Y_0\)的情況下,\(Y_0\)的條件分布就是
這部分的邏輯十分清晰,但如果你只是想到了直接代入求算這一步,就會覺得這樣做十分繁瑣。其實,研究\(Y_0\)的條件分布是十分有必要的,這樣我們就能在得到\(Y_0\)的預測值的前提下,構造出\(Y_0\)的置信區間,如果\(Y_0\)的真值在置信區間以外,就要考慮是不是出現什么問題了。當然,由於\(\sigma^2\)始終是待估參數,我們總要用\(\hat\sigma^2=\sum e_i^2/(n-2)\)替代。
至此,一元線性回歸部分就結束了,在這一章里,需要掌握的內容有:
- 總體/樣本回歸函數/模型的概念辨析,以及什么時候該用什么。
- 根據觀測值求一元線性回歸模型參數的點估計。(粗糙地使用假設)
- 知道一元線性回歸模型是BLUE,這一點不依賴於正態性假設。
- 在正態性假設下,估計隨機誤差方差\(\sigma^2\),從而得到\(\hat\beta_0,\hat\beta_1\)的分布。
- 根據\(\hat\beta_0,\hat\beta_1\)的分布,解決相關區間估計、假設檢驗問題。
- 衡量模型的擬合優度,知道一元線性回歸下可決系數的計算。
- 根據回歸模型,給出預測值的區間估計。
下一章我們就將轉向多元線性回歸模型,在這里,矩陣計算將發揮重要的作用。