上文中我們獲得了多元線性回歸模型\(Y=X\beta+\mu\)的參數估計量\(\hat\beta=(X'X)^{-1}(X'Y)\),並且在基本假設得以滿足的條件下聲明了它是一個最小方差線性無偏一致估計量,在正態性條件得以滿足的前提下給出了參數估計量\(\hat\beta\)的分布:
與一元線性回歸模型一樣,我們想要知道根據OLS估計量得到的樣本回歸線\(\hat Y=X\hat\beta\)是不是一個好的回歸方程。這個好體現在,首先是具有良好的預報效果,即預測的結果與實際結果之間沒有太大差異;其次,還表現在解釋變量的選擇上,這是一個全新的話題。在一元線性回歸中,只有一個解釋變量,然而在多元線性回歸中,我們需要考慮,選擇這么多解釋變量是否太多了,是不是應該刪除幾個解釋變量。
此外,我們還對殘差平方和的性質感興趣,所以本文我們將給出殘差平方和的分布與性質,這將發揮重要的作用。觀前提示,本章含有大量的理論推導,關於引理的證明,大家可以選擇性忽略。
1、調整可決系數與信息准則
一元線性回歸中,我們用可決系數來評判回歸效果的好壞,這是基於OLS估計量保證了平方和分解式的存在,而平方和分解式在多元線性回歸背景下依然成立。
最后一個等號成立,是基於正規方程\(\partial Q/\partial \hat\beta=0\)得到的,展開后能得到這樣的方程組:
因此平方和分解式成立,可以類似定義多元線性回歸的可決系數為
但這個時候的\(R^2\)就不再是什么相關系數的平方了。
回到我們的主要問題,我們不知道是否每一個解釋變量都有很好的解釋效果。加入過多的解釋變量會導致過擬合,從而讓回歸方程在訓練集(即觀測數據)上有較好的發揮,但在測試集上的預測效果就會比較差——因為加入了解釋效果差的解釋變量,會使得無效的信息被過分利用。因此,我們必須選擇合適的解釋變量構成回歸模型。
不可否認的是,任何解釋變量的增加都會使得回歸模型的\(R^2\)減小,這很容易理解,因為\(R^2\)是用使得殘差平方和最小的估計量計算的,如果增加了解釋變量,最差的情況下只要讓這個解釋變量的回歸系數是0,也不會增加殘差平方和;而總離差平方和是不變的,因此最差的情況下加入解釋變量也不可能使\(R^2\)增大。
因此,我們不能用\(R^2\)決定加入某個解釋變量是否合適。如果我們能夠通過在\(R^2\)的表達式里加入解釋變量個數,讓解釋變量的數量制約指標的增長,就能得到一個更為合理的參考指標,這就得到了調整可決系數:
這里\(n\)是觀測樣本數量,\(k\)是解釋變量個數,在同樣樣本觀測數量的情況下,如果解釋變量數越多,\((1-R^2)\)所乘上的分數就越大,所以\(\bar R^2\)就越小。因此,調整可決系數\(\bar R^2\)可以作為選擇解釋變量個數的一個判別標准,如果加入某個解釋變量讓\(\bar R^2\)變小,則考慮不加入這個解釋變量。
除了\(\bar R^2\)外,還有一些可以用來決定是否加入某個解釋變量的統計量,我們稱之為信息准則。書上提到了兩個信息准則:赤池信息准則(AIC)和施瓦茨准則(SC),它們的引入背景比較復雜,但都是越小越好。如果加入某個解釋變量能使得AIC或者SC變小,則考慮加入這個解釋變量。它們的定義如下:
最后,如果我們已經選擇一些解釋變量構建了回歸模型,如何確定這些解釋變量的好壞?簡單的方式就是對回歸系數作檢驗:
如果\(H_0\)被接受(p-value大),就說明變量\(X_i\)的解釋效果差,從而考慮將這個變量從模型中剔除。因此,檢驗的p-value越小,就說明這個解釋變量越顯著,越應該留在回歸模型中。對\(\beta_i\)進行檢驗與一元線性回歸完全一致,因為我們已經獲得了其方差\(\sigma^2(X'X)^{-1}_{ii}\),用隨機誤差的方差\(\hat\sigma^2=Q/(n-k-1)\)替代,就能構造出服從\(t(n-k-1)\)分布的樞軸量,然后根據其分位數構造置信區間即可。
2、殘差平方和的分布
現在我們對殘差平方和作進一步討論。此前,我們只是為了估計隨機誤差項的方差,討論了殘差平方和\({\rm RSS}\)的均值。現在,我們嘗試討論殘差平方和的分布,在此前,需要對\(\chi^2\)分布有簡單的了解並引入一些引理。
定義\(\chi^2\)分布:設\(X\sim N_n(0,I)\),則\(X'X\sim \chi^2_n\),稱為服從自由度為\(n\)的\(\chi^2\)分布。簡單說來,\(\chi^2_n\)分布就是\(n\)個獨立同分布的標准正態變量平方和的分布。
引理1:設\(X\sim N_n(0,\Sigma)\),其中\(\Sigma>0\),則
注意到如下事實:任何一個正定矩陣都可以分解成某個矩陣的平方,所以\(\Sigma^{-1}\)也正定,存在這樣的矩陣記作\(\Sigma^{-\frac12}\)。令\(Y=\Sigma^{-\frac12}X\),則
引理2:設\(X\sim N_n(0,I_n)\),\(A\)為\(n\times n\)對稱陣且\(r(A)=r\),則當\(A^2=A\)時有
大家應該知道冪等矩陣的特征值必定為0或1,這是因為\(A^2=A\Rightarrow \lambda^2=\lambda\),從而\(A\)的相似標准型為\(\Lambda={\rm diag}(1,\cdots,1,0,\cdots,0)\),一共有\(r\)個1,又因為\(A\)是對稱陣,所以可以用正交矩陣對角化,也就是存在某個正交陣\(Q\),使得\(Q'AQ=\Lambda\),令\(Y=Q'X\),則\(Y\sim N_n(0,Q'Q)=N_n(0,I_n)\),所以
現在我們可以討論\({\rm RSS}\)的分布,上一節我們已經給出了\(Q\)(殘差平方和)的實用表達形式\((4.24)\),現在我們不妨再推導一次(省略一些步驟):
而且
這就說明\(I_n-X(X'X)^{-1}X'\)是一個冪等矩陣,結合\(\mu\sim N_n(0,\sigma^2I_n)\),只要得到\(I_n-X(X'X)^{-1}X'\)的秩就能推出\(Q\)的分布了。由於冪等矩陣的特征根恰好為0和1,1的數量就是矩陣的秩同時也是矩陣的跡,所以
因此
事實上,殘差平方和還與OLS估計量\(\hat\beta\)獨立,證明這一點需要用到以下引理。
引理3:設\(X\sim N_n(0,I_n)\),\(A\)為\(n\times n\)對稱陣,\(B\)為\(m\times n\)矩陣,則\(BA=O\Rightarrow BX\)與\(X'AX\)相互獨立。
證明此定理的核心在於,由我們剛才的分析知道,\(X'AX\)只用到了前\(r\)個\(Y_i\),而由正交變換的性質,各個\(Y_i\)之間是獨立的,所以我們希望\(BX\)只用到后\(n-r\)個\(Y_i\),這就自然得出了獨立性。對矩陣\(Q\)進行分塊,因為\(A\)只用到了前\(r\)個\(Y_i\),所以也將\(Q\)分為前\(r\)列與后\(n-r\)列。
此時不要求\(A\)是冪等矩陣,但由於\(A\)是對稱陣,依然可以正交對角化,所以設\(Q'AQ=\Lambda_r={\rm diag}(\lambda_1,\cdots,\lambda_r,0,\cdots,0)\),也就是
設\(Q=(Q_1,Q_2)\),這里\(Q_1\)為\(n\times r\)的,則
同樣構造變換\(Y=Q'X\),則
這里\(Y_1\sim N_r(0,I_r),Y_2\sim N_{n-r}(0,I_{n-r})\),且\(Y_1,Y_2\)相互獨立。現在
對\(D_{m\times n}\)也進行分塊,分成\(m\times r\)的\(D_1\)和\(m\times {(n-r)}\)的\(D_2\),由\(BA=O\)可以推出
所以\(D_1\Lambda_r=O\),即\(D_1=O_{m\times r}\),所以
現在\(X'AX=Y_1'\Lambda_rY_1=f(Y_1),BX=D_2Y_2=g(Y_2)\),由\(Y_1,Y_2\)獨立就有\(X'AX\)與\(BX\)獨立,結論得證。
回到我們的殘差平方和\(Q=\mu'[I_n-X(X'X)X']\mu\)與OLS估計量\(\hat\beta=(X'X)^{-1}X'(X\beta+\mu)\)上,在\(X\)已知的情況下,\(\hat\beta\)的隨機部分為\((X'X)^{-1}X'\mu\),由於
所以\({\rm RSS}\)與\(\hat\beta\)相互獨立。
有關殘差平方和\({\rm RSS}\)分布的應用,我們會在下文中認識到。
3、回歸預測
我們同樣可以用樣本回歸線給出預測,現在我們把\(X_0\)視為一個行向量\(X_0=(1,X_{01},\cdots,X_{0k})\),想要在已知\(X_0\)時預測\(Y_0\),與一元類似,
且\(Y_0\)與\(\hat Y_0\)因\(\mu_i\)的條件序列不相關性而條件獨立,故
也就是
因此,如果我們取得了觀測值\(X_0\),就可以根據\(\hat\sigma^2\)得到\(Y_0\)的樞軸量,進而根據\(t\)分布的性質給出\(Y_0\)的置信區間。
4、模型的線性化
我們現在討論的都是總體回歸函數是線性函數的情況,然而實際生活中的案例千變萬化,線性不可能涵蓋萬物,強行使用線性模型容易得到不讓人滿意的效果。所以,我們現在要對線性回歸模型中的線性作另外的考量。
線性回歸模型中的線性,指的是關於“參數”的線性函數,而不是自變量的線性函數。簡單來說,當我們獲得數據之后,將數據經過變換得到數據矩陣,只要能夠用數據矩陣的形式所表述,都稱為線性回歸模型,如
獲得\(X,Y\)的觀測值后能夠寫出數據矩陣,所以模型關於參數\(\beta_0,\beta_1\)是線性的;如
在獲得\(X,Y\)的觀測值后也能寫出數據矩陣,所以模型關於參數\(\beta_0,\beta_1,\beta_2\)是線性的。注意,要寫出這樣的線性模型,基本假設依然要滿足。
同時,我們還可能對模型形式進行變換,對於嚴格單調連續函數\(h\),如果我們能列出以下的模型:
則\(h^{-1}(Y)=X\beta+\mu\)也是一個線性回歸模型。為此,我們介紹Box-Cox變換,它是對因變量進行的變換,依賴於變換參數\(\lambda\):
這種變換是常見的變換方式,當\(\lambda=0\)時是對數變換\(f(Y)=\ln Y\),當\(\lambda=-1\)時是倒數變換\(f(Y)=1-\frac 1Y\),當\(\lambda=\frac12\)時是平方根變換\(f(Y)=\frac12(\sqrt Y-1)\),由於變換方式多樣而廣被接受。實際生活中如何確定\(\lambda\)的值是一個問題,但這里我們不作討論,我們可以看看他的實際應用:Cobb-Dauglas生產函數為
取\(\lambda=0\)使用對數變換,就得到
此時\(A,K,L,Q\)可觀測,所以原模型就轉變成了一個關於\(\alpha,\beta\)的線性回歸模型。不過,也不是所有模型都是可以線性化的,如
這就是一個無法線性化的模型。
本文最主要討論的問題是模型中解釋變量的選擇,一般我們會將顯著性不足的變量從回歸模型中剔除以防止過擬合,調整可決系數、AIC、SC都是用來控制解釋變量數目的指標。然后,我們詳細討論了RSS的分布問題,給出了RSS服從的卡方分布,以及RSS與OLS估計量獨立的性質。最后,我們對模型的預測功能做出解釋,這一點與一元線性回歸類似,沒有過多說明。此外,還給出了看待線性回歸模型的一種視角,將模型線性化。
下文中我們將討論最后的難點:受約束回歸。