Chapter 10:自變量的選擇(2)
5.2 自變量選擇的准則
5.2.3 \(C_p\) 統計量准則
\(C_p\) 統計量准則是從預測的角度提出來的自變量選擇的准則。對於選模型,定義 \(C_p\) 統計量為
這里 \({\rm RSS}_q\) 是選模型的殘差平方和,\(\hat\sigma^2\) 是全模型中 \(\sigma^2\) 的最小二乘估計。我們按照 \(C_p\) 統計量越小越好的准則選擇自變量,並稱其為 \(C_p\) 准則。
提出 \(C_p\) 統計量的想法如下:假設全模型為真,但為了提高預測的精度,用選模型做預測,因此需要 \(n\) 個預測值與期望值的相對偏差平方和的期望值(定義為 \(\Gamma_q\))達到最小。計算可得:
其中,第一部分 \(I_1\) 容易計算:
第二部分 \(I_2\) 可利用定理 5.1.1 (1) 的結論和 (4) 的證明過程計算:
其中 \(M=\left(D-C'B^{-1}C\right)^{-1}\) 。將 \(I_1\) 和 \(I_2\) 代入到 \(\Gamma_q\) 中得到
因為 \({\rm E}\left({\rm RSS}_q\right)\) 和 \(\sigma^2\) 未知,所以我們用 \({\rm RSS}_q\) 和 \(\hat\sigma^2\) 代替即可得到 \(C_p\) 統計量。為什么 \(C_p\) 統計量可以作為自變量選擇的准則,我們可以通過 \(C_p\) 統計量的性質看出。
定理 5.2.1:假設隨機向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,則對選模型的 \(C_p\) 統計量,有
其中 \(M=\left(D-C'B^{-1}C\right)^{-1},\,B=X_q'X_q,\,C=X_q'X_t,\,D=X_t'X_t\) 。
只需求出 \({\rm E}({\rm RSS}_q/\hat\sigma^2)\) ,對於全模型,殘差平方和 \({\rm RSS}=(n-p-1)\hat\sigma^2\) 且
\[\frac{\rm RSS}{\sigma^2}\sim\chi^2(n-p-1) \ . \]選模型中的殘差平方和 \({\rm RSS}_q\) 可以看作在假設 \(H_0:\beta_t=0\) 下模型的殘差平方和,根據最小二乘法基本定理,\(\eta\xlongequal{def}{\rm RSS}_q-{\rm RSS}\) 與 \({\rm RSS}\) 相互獨立,且有
\[\begin{aligned} {\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)&=(n-p-1){\rm E}\left(\frac{{\rm RSS}_q}{\rm RSS}\right) \\ \\ &=(n-p-1){\rm E}\left[1+{\rm E}(\eta)\cdot{\rm E}\left(\frac{1}{\rm RSS}\right)\right] \ . \end{aligned} \]記 \(k=n-p-1\) ,由 \({\rm RSS}/\sigma^2\sim\chi^2(k)\) 得
\[\begin{aligned} {\rm E}\left(\frac{\sigma^2}{\rm RSS}\right)&=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}\int_0^\infty x^{-1}e^{-\frac x2}x^{\frac k2-1}{\rm d}x \\ \\ &=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}2^{\frac k2-1}\Gamma\left(\frac k2-1\right) \\ \\ &=\frac{1}{k-2}=\frac{1}{n-p-3} \ . \end{aligned} \]因此
\[{\rm E}\left(\frac{1}{\rm RSS}\right)=\frac1{\sigma^2}\cdot \frac{1}{n-p-3} \ . \]假設 \(H_0:\beta_t=0\) 可以等價寫成線性假設 \(H_0:A\beta=0\) ,其中 \(A=(0,I_t)\) ,這里的 \(0\) 是 \(t\times(q+1)\) 的零矩陣,顯然 \({\rm rank}(A)=t\) 。同時注意到
\[\hat\beta_t\sim N(\beta_t,\sigma^2M) \ , \]於是有
\[\frac1\sigma M^{-\frac12}\hat\beta_t\sim N\left(\frac1\sigma M^{-\frac12}\beta_t,I_t\right) \ . \]由非中心卡方分布的定義可知
\[\frac{\eta}{\sigma^2}=\frac{\hat\beta_t'M^{-1}\hat\beta_t}{\sigma^2}=\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)\sim\chi^2(t,\delta) \ , \]其中
\[\delta=\left(\frac1\sigma M^{-\frac12}\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\beta_t\right)=\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \]因此
\[{\rm E}(\eta)=\sigma^2\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ . \]注意到 \(p=q+t\) ,於是可以推知
\[\begin{aligned} {\rm E}(C_p)&={\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)-[n-2(q+1)] \\ \\ &=(n-p-1)\left[1+\frac{1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right)\right]--[n-2(q+1)] \\ \\ &=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \end{aligned} \]
這個定理說明 \(C_p\) 統計量不是 \(\Gamma_p\) 的無偏估計量,但當 \(n\to\infty\) 時,則有 \({\rm E}(C_p)\to\Gamma_p\) ,即 \(C_p\) 統計量是 \(\Gamma_p\) 的漸進無偏估計量。這里我們不考慮超高維數據的情況,即當 \(n\) 較大的時候,\(n-p\) 也較大。根據 \(\Gamma_p\) 的意義,我們希望 \(\Gamma_p\) 越小越好,所以我們應該選擇具有最小 \(C_p\) 統計量的值的自變量子集。
推論:在定理 5.2.1 的條件下,若 \(\beta_t=0\) ,則
等價地
其中
注意到 \(u\) 是假設 \(H_0:\beta_t=0\) 的 \(F\) 檢驗統計量:
\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}=\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2} \ . \]所以,若 \(\beta_t=0\) ,則由最小二乘法基本定理知 \(u\sim F(t,n-p-1)\) ,代入到 \(C_p\) 統計量的表達式中:
\[\begin{aligned} C_p&=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \\ \\ &=\left(\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2}+\frac{{\rm RSS}}{t\hat\sigma^2}\right)t-[n-2(q+1)] \ , \\ \\ &=tu+\frac{(n-p-1)\hat\sigma^2}{\hat\sigma^2}-[n-2(q+1)] \\ \\ &=(q+1-t)+tu \ . \end{aligned} \]
上述推論給我們提供了利用 \(C_p\) 統計量選擇自變量的另一種思路。若 \(\beta_t=0\) ,則選模型是正確的,根據定理 5.2.1 可知
若 \(n-p\) 較大,則有 \({\rm E}(C_p)\approx q+1\) 。注意到 \(q+1\) 是選模型的設計矩陣的秩,說明對於正確的選模型,在平面直角坐標系中,點 \((q+1,C_p)\) 落在第一象限角平分線附近。
如果選模型不正確,即 \(\beta_t\neq0\) ,則當 \(n-p\) 較大時有
此時點 \((q+1,C_p)\) 將會向第一象限角平分線上方移動。於是,我們可以得到如下自變量的選擇准則:選擇使得點 \((q+1,C_p)\) 最接近第一象限角平分線且 \(C_p\) 值最小的選模型。
將平面直角坐標系中 \((q+1,C_p)\) 的散點圖稱為 \(C_p\) 圖。
5.2.4 AIC 准則和 BIC 准則
以上三種自變量選擇的准則是基於最小二乘估計來構造的統計量,而 AIC 准則和 BIC 准則是基於極大似然原理修正得到的較為一般的自變量選擇的准則。
對於一般的統計模型,設 \(y_1,y_2,\cdots,y_n\) 是因變量的一個樣本,來自某個含有 \(k\) 個參數的模型,對應的似然函數最大值記為 \(L_k(y_1,y_2,\cdots,y_n)\) ,AIC 准則希望選擇使 \(\ln L_k(y_1,y_2,\cdots,y_n)-k\) 達到最大的模型。
對於線性回歸模型,在選模型中,假設誤差向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,則 \(\beta_q\) 與 \(\sigma^2\) 的似然函數為
容易求得 \(\beta_q\) 和 \(\sigma^2\) 的極大似然估計為
將 \(\tilde\beta_q\) 和 \(\tilde\sigma^2_q\) 代入似然函數,求得對數極大似然的值為
略去與 \(q\) 無關的項,按照 AIC 准則,我們得到統計量 \(-\dfrac n2\ln\left({\rm RSS}_q\right)-(q+1)\) ,並希望選擇自變量子集使該統計量達到最大。等價地,我們令 \({\rm AIC}\) 統計量為
於是 AIC 准則即為選擇使 \({\rm AIC}\) 統計量達到最小的自變量子集。
在 AIC 准則的基礎上,原作者又基於 Bayes 方法提出了 BIC 准則,定義 \({\rm BIC}\) 統計量為
與 AIC 准則相比,BIC 准則對增加自變量個數的懲罰加強了,從而在選擇變量進入模型上更加謹慎。
5.2.5 \(J_p\) 統計量准則
\(J_p\) 統計量准則也是從預測的角度提出來的自變量選擇的准則,與 \(C_p\) 統計量准則的區別在於,\(J_p\) 統計量考慮的是預測偏差的方差之和,而 \(C_p\) 統計量考慮的是偏差平方和的期望。
利用選模型進行預測,預測偏差 \(y_0-x_{0q}'\tilde\beta_q\) 的方差為
因而在 \(n\) 個樣本點上,\((x_i,\tilde y_i),\,i=1,2,\cdots,n\) ,其中 \(\tilde y_i\) 與 \(y_i\) 獨立同分布,考慮樣本內預測的預測偏差的方差之和
由於 \(\sigma^2\) 未知,所以用對應模型中 \(\sigma^2\) 的估計 \(\tilde\sigma_q^2\) 代入得到
這里 \((n+q+1)/(n-q-1)\) 起到了對增加自變量個數的懲罰作用。我們希望選擇使 \(J_p\) 達到最小的自變量子集,這就是 \(J_p\) 統計量准則。
5.2.6 預測殘差平方和准則
預測殘差平方和准則簡記為 \({\rm PRESS}_q\) 准則,理解它的構造思路比較重要。這里我們略去 \(q\) ,對全模型作推導。考慮在建立回歸方程時略去第 \(i\) 組數據,此時記
相應的模型為
此時 \(\beta\) 的最小二乘估計為
用 \(x_{i}'\hat\beta_{(i)}\) 去預測 \(y_i\) ,預測偏差記為 \(\hat e_{(i)}\) ,即
定義預測殘差平方和為
在第三章中我們已經證明
所以
這里的 \(\hat e_i\) 是全數據情形下的第 \(i\) 個殘差,因此
若要計算 \({\rm PRESS}_q\) ,只需將 \(h_{ii}\) 換成 \(X_q\left(X_q'X_q\right)^{-1}X_q'\) ,即選模型的帽子矩陣的第 \(i\) 個對角線元素,將 \(\hat e_i\) 換成全數據情形下選模型的第 \(i\) 個殘差即可。
我們選擇使得 \({\rm PRESS}_q\) 達到最小的自變量子集,這就是預測殘差平方和准則。
5.3 自變量選擇的方法
在多元線性回歸分析中,\(p\) 個自變量的所有可能的子集可以構成 \(2^p-1\) 個線性回歸模型。當可供選擇的自變量個數不太多時,利用前面介紹的自變量選擇准則可以挑選出最優的線性回歸模型。然而,當自變量的個數較多時,以上方法就不太適用了。為此,我們介紹一些較為簡潔、快捷的自變量選擇的方法。這些方法各有優缺點,沒有絕對最優的方法。
5.3.1 向前法
向前法的思想是回歸模型中的自變量由少到多,每次增加一個,直到沒有可引入的自變量為止。
Step 1:因變量 \(y\) 對每個自變量 \(x_1,x_2,\cdots,x_p\) 分別建立一元線性回歸模型。分別計算這 \(p\) 個回歸模型的 \(p\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\) 。選其最大者,記為
給定顯著性水平 \(\alpha\) ,若 \(F_j^{(1)}>F_\alpha(1,n-2)\) ,則首先將 \(x_j\) 引入回歸模型。不妨假設 \(x_j\) 就是 \(x_1\) 。
Step 2:因變量 \(y\) 對每組自變量 \((x_1,x_2),(x_1,x_3),\cdots,(x_1,x_p)\) 分別建立二元線性回歸模型。分別計算這 \(p-1\) 個回歸模型中\(x_2,x_3,\cdots,x_p\) 的回歸系數計算 \(F\) 值,記為 \(F_2^{(2)},F_3^{(2)}\cdots,F_p^{(2)}\) 。選其最大者,記為
給定顯著性水平 \(\alpha\) ,若 \(F_j^{(2)}>F_\alpha(1,n-3)\) ,則首先將 \(x_j\) 引入回歸模型。不妨假設 \(x_j\) 就是 \(x_2\) 。
Step 3:繼續以上做法,假設已確定選入 \(q\) 個自變量 \(x_1,x_2,\cdots,x_q\) ,在建立 \(q+1\) 元線性回歸模型時,若所有的 \(x_{q+1},\cdots,x_p\) 的 \(F\) 值均不大於 \(F_\alpha(1,n-q-2)\) ,則變量選擇結束。這時得到的 \(q\) 元線性回歸模型就是向前法所確定的最優回歸模型。
向前法的缺點是不能反映引入新變量后的變化情況。因為某個自變量可能剛開始時是顯著的,但是當引入其他自變量后,它就變得不顯著了,但是沒有機會將其剔除。即一旦引入就是“終身制”的。
5.3.2 向后法
向后法的思想是選入的自變量個數由多到少,每次剔除一個,直到沒有可剔除的自變量為止。
Step 1:因變量 \(y\) 對所有自變量 \(x_1,x_2,\cdots,x_p\) 建立一個 \(p\) 元線性回歸模型,分別計算 \(p\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\) 。選其最小者,記為
給定顯著性水平 \(\beta\) ,若 \(F_j^{(p)}\leq F_\beta(1,n-p-1)\) ,則從回歸模型中剔除 \(x_j\) 。不妨假設 \(x_j\) 就是 \(x_p\) 。
Step 2:因變量 \(y\) 對自變量 \(x_1,x_2,\cdots,x_{p-1}\) 建立一個 \(p-1\) 元線性回歸模型。分別計算 \(p-1\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\) 。選其最小者,記為
給定顯著性水平 \(\beta\) ,若 \(F_j^{(p-1)}\leq F_\beta(1,n-p)\) ,則從回歸模型中剔除 \(x_j\) 。不妨假設 \(x_j\) 就是 \(x_{p-1}\) 。
Step 3:繼續以上做法,假設已確定剔除 \(p-q\) 個自變量 \(x_{q+1},\cdots,x_p\) ,在 \(y\) 關於 \(x_1,x_2,\cdots,x_q\) 建立 \(q\) 元線性回歸模型時,若所有 \(x_1,x_2,\cdots,x_q\) 的 \(F\) 值均大於 \(F_\beta(1,n-q-1)\) ,則變量選擇結束。這時得到的 \(q\) 元線性回歸模型就是向后法所確定的最優回歸模型。
向后法的缺點是一開始就把所有自變量引入回歸模型,這樣的計算量很大。另外,自變量一旦被剔除,將永遠沒有機會再重新進入回歸模型,即“一棒子打死”的。
5.3.3 逐步回歸法
逐步回歸法的基本思想是有進有出。
將自變量一個一個地引入回歸模型,每引入一個自變量后,都要對已選入的自變量進行逐個檢驗,當先引入的自變量由於后引入的自變量而變得不再顯著時,就要將其剔除。將這個過程反復進行下去,直到既無顯著的自變量引入回歸模型,也無不顯著的自變量從回歸模型中剔除為止。這樣就避免了向前法和向后法各自的缺點,以保證最后得到的自變量子集是“最優”的自變量子集。
