回歸分析10:自變量的選擇(2)


Chapter 10:自變量的選擇(2)

5.2 自變量選擇的准則

5.2.3 \(C_p\) 統計量准則

\(C_p\) 統計量准則是從預測的角度提出來的自變量選擇的准則。對於選模型,定義 \(C_p\) 統計量為

\[C_p=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \]

這里 \({\rm RSS}_q\) 是選模型的殘差平方和,\(\hat\sigma^2\) 是全模型中 \(\sigma^2\) 的最小二乘估計。我們按照 \(C_p\) 統計量越小越好的准則選擇自變量,並稱其為 \(C_p\) 准則。

提出 \(C_p\) 統計量的想法如下:假設全模型為真,但為了提高預測的精度,用選模型做預測,因此需要 \(n\) 個預測值與期望值的相對偏差平方和的期望值(定義為 \(\Gamma_q\))達到最小。計算可得:

\[\begin{aligned} \Gamma_q&\xlongequal{def}{\rm E}\left[\sum_{i=1}^n\left(\frac{\tilde{y}_{iq}-{\rm E}(y_i)}{\sigma}\right)^2\right]={\rm E}\left[\frac1{\sigma^2}\sum_{i=1}^n\left(x_{iq}'\tilde\beta_q-x_{i}'\beta\right)^2\right] \\ \\ &=\frac{1}{\sigma^2}\sum_{i=1}^n{\rm E}\left\{\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]+\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]\right\}^2 \\ \\ &=\frac{1}{\sigma^2}\sum_{i=1}^n\left\{{\rm E}\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]^2+\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]^2\right\} \\ \\ &\xlongequal{def}\frac{1}{\sigma^2}\left(I_1+I_2\right) \ . \end{aligned} \]

其中,第一部分 \(I_1\) 容易計算:

\[\begin{aligned} I_1&=\sum_{i=1}^n{\rm E}\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]^2=\sum_{i=1}^n{\rm Var}\left(x_{iq}'\tilde\beta_q\right) \\ \\ &=\sigma^2\sum_{i=1}^nx_{iq}'\left(X_q'X_q\right)^{-1}x_{iq} \\ \\ &=\sigma^2{\rm tr}\left[\left(X_q'X_q\right)^{-1}\sum_{i=1}^nx_{iq}x_{iq}'\right]=(q+1)\sigma^2 \ . \end{aligned} \]

第二部分 \(I_2\) 可利用定理 5.1.1 (1) 的結論和 (4) 的證明過程計算:

\[\begin{aligned} I_2&=\sum_{i=1}^n\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]^2 \\ \\ &=\sum_{i=1}^n\left[x_{iq}'\left(\beta_q+B^{-1}C\beta_t\right)-x_{iq}'\beta_q-x_{it}'\beta_t\right]^2 \\ \\ &=\sum_{i=1}^n\beta_t'\left(C'B^{-1}x_{iq}-x_{it}\right)\left(C'B^{-1}x_{iq}-x_{it}\right)'\beta_t \\ \\ &=\sum_{i=1}^n\beta_t'\left[C'B^{-1}x_{iq}x_{iq}'B^{-1}C-x_{it}x_{iq}'B^{-1}C-C'B^{-1}x_{iq}x_{it}'+x_{it}x_{it}'\right]\beta_t \\ \\ &=\beta_t'\left[C'B^{-1}BB^{-1}C-C'B^{-1}C-C'B^{-1}C+D\right]\beta_t \\ \\ &=\beta_t'M^{-1}\beta_t \\ \\ &=(n-q-1)\left[{\rm E}(\tilde\sigma_q^2)-\sigma^2\right] \ . \end{aligned} \]

其中 \(M=\left(D-C'B^{-1}C\right)^{-1}\) 。將 \(I_1\)\(I_2\) 代入到 \(\Gamma_q\) 中得到

\[\begin{aligned} \Gamma_q&={\rm E}\left[\frac1{\sigma^2}\sum_{i=1}^n\left(x_{iq}'\tilde\beta_q-x_{i}'\beta\right)^2\right] \\ \\ &=\frac{1}{\sigma^2}\left[(q+1)\sigma^2+(n-q-1)\left[{\rm E}(\tilde\sigma_q^2)-\sigma^2\right]\right] \\ \\ &=\frac{{\rm E}\left({\rm RSS}_q\right)}{\sigma^2}-[n-2(q+1)] \\ \\ &\xlongequal{\text{or}}q+1+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \end{aligned} \]

因為 \({\rm E}\left({\rm RSS}_q\right)\)\(\sigma^2\) 未知,所以我們用 \({\rm RSS}_q\)\(\hat\sigma^2\) 代替即可得到 \(C_p\) 統計量。為什么 \(C_p\) 統計量可以作為自變量選擇的准則,我們可以通過 \(C_p\) 統計量的性質看出。

定理 5.2.1:假設隨機向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,則對選模型的 \(C_p\) 統計量,有

\[{\rm E}\left(C_p\right)=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ , \]

其中 \(M=\left(D-C'B^{-1}C\right)^{-1},\,B=X_q'X_q,\,C=X_q'X_t,\,D=X_t'X_t\)

只需求出 \({\rm E}({\rm RSS}_q/\hat\sigma^2)\) ,對於全模型,殘差平方和 \({\rm RSS}=(n-p-1)\hat\sigma^2\)

\[\frac{\rm RSS}{\sigma^2}\sim\chi^2(n-p-1) \ . \]

選模型中的殘差平方和 \({\rm RSS}_q\) 可以看作在假設 \(H_0:\beta_t=0\) 下模型的殘差平方和,根據最小二乘法基本定理,\(\eta\xlongequal{def}{\rm RSS}_q-{\rm RSS}\)\({\rm RSS}\) 相互獨立,且有

\[\begin{aligned} {\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)&=(n-p-1){\rm E}\left(\frac{{\rm RSS}_q}{\rm RSS}\right) \\ \\ &=(n-p-1){\rm E}\left[1+{\rm E}(\eta)\cdot{\rm E}\left(\frac{1}{\rm RSS}\right)\right] \ . \end{aligned} \]

\(k=n-p-1\) ,由 \({\rm RSS}/\sigma^2\sim\chi^2(k)\)

\[\begin{aligned} {\rm E}\left(\frac{\sigma^2}{\rm RSS}\right)&=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}\int_0^\infty x^{-1}e^{-\frac x2}x^{\frac k2-1}{\rm d}x \\ \\ &=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}2^{\frac k2-1}\Gamma\left(\frac k2-1\right) \\ \\ &=\frac{1}{k-2}=\frac{1}{n-p-3} \ . \end{aligned} \]

因此

\[{\rm E}\left(\frac{1}{\rm RSS}\right)=\frac1{\sigma^2}\cdot \frac{1}{n-p-3} \ . \]

假設 \(H_0:\beta_t=0\) 可以等價寫成線性假設 \(H_0:A\beta=0\) ,其中 \(A=(0,I_t)\) ,這里的 \(0\)\(t\times(q+1)\) 的零矩陣,顯然 \({\rm rank}(A)=t\) 。同時注意到

\[\hat\beta_t\sim N(\beta_t,\sigma^2M) \ , \]

於是有

\[\frac1\sigma M^{-\frac12}\hat\beta_t\sim N\left(\frac1\sigma M^{-\frac12}\beta_t,I_t\right) \ . \]

由非中心卡方分布的定義可知

\[\frac{\eta}{\sigma^2}=\frac{\hat\beta_t'M^{-1}\hat\beta_t}{\sigma^2}=\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)\sim\chi^2(t,\delta) \ , \]

其中

\[\delta=\left(\frac1\sigma M^{-\frac12}\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\beta_t\right)=\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \]

因此

\[{\rm E}(\eta)=\sigma^2\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ . \]

注意到 \(p=q+t\) ,於是可以推知

\[\begin{aligned} {\rm E}(C_p)&={\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)-[n-2(q+1)] \\ \\ &=(n-p-1)\left[1+\frac{1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right)\right]--[n-2(q+1)] \\ \\ &=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \end{aligned} \]

這個定理說明 \(C_p\) 統計量不是 \(\Gamma_p\) 的無偏估計量,但當 \(n\to\infty\) 時,則有 \({\rm E}(C_p)\to\Gamma_p\) ,即 \(C_p\) 統計量是 \(\Gamma_p\) 的漸進無偏估計量。這里我們不考慮超高維數據的情況,即當 \(n\) 較大的時候,\(n-p\) 也較大。根據 \(\Gamma_p\) 的意義,我們希望 \(\Gamma_p\) 越小越好,所以我們應該選擇具有最小 \(C_p\) 統計量的值的自變量子集。

推論:在定理 5.2.1 的條件下,若 \(\beta_t=0\) ,則

\[C_p=(q+1-t)+tu \ , \]

等價地

\[C_p-(q+1)=t(u-1) \ , \]

其中

\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}\sim F(t,n-p-1) \ . \]

注意到 \(u\) 是假設 \(H_0:\beta_t=0\)\(F\) 檢驗統計量:

\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}=\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2} \ . \]

所以,若 \(\beta_t=0\) ,則由最小二乘法基本定理知 \(u\sim F(t,n-p-1)\) ,代入到 \(C_p\) 統計量的表達式中:

\[\begin{aligned} C_p&=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \\ \\ &=\left(\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2}+\frac{{\rm RSS}}{t\hat\sigma^2}\right)t-[n-2(q+1)] \ , \\ \\ &=tu+\frac{(n-p-1)\hat\sigma^2}{\hat\sigma^2}-[n-2(q+1)] \\ \\ &=(q+1-t)+tu \ . \end{aligned} \]

上述推論給我們提供了利用 \(C_p\) 統計量選擇自變量的另一種思路。若 \(\beta_t=0\) ,則選模型是正確的,根據定理 5.2.1 可知

\[{\rm E}\left(C_p\right)=q+1-t+\frac{n-p-1}{n-p-3}t \ , \]

\(n-p\) 較大,則有 \({\rm E}(C_p)\approx q+1\) 。注意到 \(q+1\) 是選模型的設計矩陣的秩,說明對於正確的選模型,在平面直角坐標系中,點 \((q+1,C_p)\) 落在第一象限角平分線附近。

如果選模型不正確,即 \(\beta_t\neq0\) ,則當 \(n-p\) 較大時有

\[{\rm E}\left(C_p\right)\approx q+1+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}>q+1 \ , \]

此時點 \((q+1,C_p)\) 將會向第一象限角平分線上方移動。於是,我們可以得到如下自變量的選擇准則:選擇使得點 \((q+1,C_p)\) 最接近第一象限角平分線且 \(C_p\) 值最小的選模型。

將平面直角坐標系中 \((q+1,C_p)\) 的散點圖稱為 \(C_p\) 圖。

5.2.4 AIC 准則和 BIC 准則

以上三種自變量選擇的准則是基於最小二乘估計來構造的統計量,而 AIC 准則和 BIC 准則是基於極大似然原理修正得到的較為一般的自變量選擇的准則。

對於一般的統計模型,設 \(y_1,y_2,\cdots,y_n\) 是因變量的一個樣本,來自某個含有 \(k\) 個參數的模型,對應的似然函數最大值記為 \(L_k(y_1,y_2,\cdots,y_n)\) ,AIC 准則希望選擇使 \(\ln L_k(y_1,y_2,\cdots,y_n)-k\) 達到最大的模型。

對於線性回歸模型,在選模型中,假設誤差向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,則 \(\beta_q\)\(\sigma^2\) 的似然函數為

\[L\left(\beta_q,\sigma^2|Y\right)=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\left\|Y-X_q\beta_q\right\|^2\right\} \ . \]

容易求得 \(\beta_q\)\(\sigma^2\) 的極大似然估計為

\[\tilde\beta_q=\left(X_q'X_q\right)^{-1}X_q'Y \ , \quad \tilde\sigma^2_q=\frac{{\rm RSS}_q}{n}=\frac{Y'\left[I_n-X_q\left(X_q'X_q\right)^{-1}X_q'\right]Y}{n} \ . \]

\(\tilde\beta_q\)\(\tilde\sigma^2_q\) 代入似然函數,求得對數極大似然的值為

\[\ln L(\tilde\beta_q,\tilde\sigma_q^2|Y)=\frac n2\ln\left(\frac{n}{2\pi}\right)-\frac n2-\frac n2\ln\left({\rm RSS}_q\right) \ . \]

略去與 \(q\) 無關的項,按照 AIC 准則,我們得到統計量 \(-\dfrac n2\ln\left({\rm RSS}_q\right)-(q+1)\) ,並希望選擇自變量子集使該統計量達到最大。等價地,我們令 \({\rm AIC}\) 統計量為

\[{\rm AIC}=n\ln\left({\rm RSS}_q\right)+2(q+1) \ , \]

於是 AIC 准則即為選擇使 \({\rm AIC}\) 統計量達到最小的自變量子集。

在 AIC 准則的基礎上,原作者又基於 Bayes 方法提出了 BIC 准則,定義 \({\rm BIC}\) 統計量為

\[{\rm BIC}=n\ln\left({\rm RSS}_q\right)+(q+1)\ln n \ , \]

與 AIC 准則相比,BIC 准則對增加自變量個數的懲罰加強了,從而在選擇變量進入模型上更加謹慎。

5.2.5 \(J_p\) 統計量准則

\(J_p\) 統計量准則也是從預測的角度提出來的自變量選擇的准則,與 \(C_p\) 統計量准則的區別在於,\(J_p\) 統計量考慮的是預測偏差的方差之和,而 \(C_p\) 統計量考慮的是偏差平方和的期望。

利用選模型進行預測,預測偏差 \(y_0-x_{0q}'\tilde\beta_q\) 的方差為

\[\left[1+x_{0q}'\left(X_q'X_q\right)^{-1}x_{0q}\right]\sigma^2 \ , \]

因而在 \(n\) 個樣本點上,\((x_i,\tilde y_i),\,i=1,2,\cdots,n\) ,其中 \(\tilde y_i\)\(y_i\) 獨立同分布,考慮樣本內預測的預測偏差的方差之和

\[\begin{aligned} \sum_{i=1}^n{\rm Var}\left(\tilde y_i-x_{iq}'\tilde\beta_q\right)&=\sigma^2\sum_{i=1}^n\left[1+x_{iq}'\left(X_q'X_q\right)^{-1}x_{iq}\right] \\ \\ &=n\sigma^2+\sigma^2{\rm tr}\left[\left(X_q'X_q\right)^{-1}\sum_{i=1}^nx_{iq}x_{iq}'\right] \\ \\ &=(n+q+1)\sigma^2 \ . \end{aligned} \]

由於 \(\sigma^2\) 未知,所以用對應模型中 \(\sigma^2\) 的估計 \(\tilde\sigma_q^2\) 代入得到

\[J_p\xlongequal{def}(n+q+1)\tilde\sigma_q^2=\frac{n+q+1}{n-q-1}{\rm RSS}_q \ . \]

這里 \((n+q+1)/(n-q-1)\) 起到了對增加自變量個數的懲罰作用。我們希望選擇使 \(J_p\) 達到最小的自變量子集,這就是 \(J_p\) 統計量准則。

5.2.6 預測殘差平方和准則

預測殘差平方和准則簡記為 \({\rm PRESS}_q\) 准則,理解它的構造思路比較重要。這里我們略去 \(q\) ,對全模型作推導。考慮在建立回歸方程時略去第 \(i\) 組數據,此時記

\[Y_{(i)}=\begin{bmatrix} y_1 \\ \vdots \\ y_{i-1} \\ y_{i+1} \\ \vdots \\ y_n \end{bmatrix} \ , \quad X_{(i)}=\begin{bmatrix} x_1' \\ \vdots \\ x_{i-1}' \\ x_{i+1}' \\ \vdots \\ x_n' \end{bmatrix} \ , \quad e_{(i)}=\begin{bmatrix} e_1 \\ \vdots \\ e_{i-1} \\ e_{i+1} \\ \vdots \\ e_n \end{bmatrix} \ . \]

相應的模型為

\[Y_{(i)}=X_{(i)}\beta+e_{(i)} \ . \]

此時 \(\beta\) 的最小二乘估計為

\[\hat\beta_{(i)}=\left(X_{(i)}'X_{(i)}\right)^{-1}X_{(i)}'Y_{(i)} \ . \]

\(x_{i}'\hat\beta_{(i)}\) 去預測 \(y_i\) ,預測偏差記為 \(\hat e_{(i)}\) ,即

\[\hat e_{(i)}=y_i-x_{i}'\hat\beta_{(i)} \ . \]

定義預測殘差平方和為

\[{\rm PRESS}=\sum_{i=1}^n\left[\hat e_{(i)}\right]^2 \ . \]

在第三章中我們已經證明

\[\hat\beta_{(i)}=\hat\beta-\frac{\left(X'X\right)^{-1}x_i\hat e_i}{1-h_{ii}} \ , \]

所以

\[\hat e_{(i)}=y_i-x_i'\hat\beta+\frac{x_i'\left(X'X\right)^{-1}x_i\hat e_i}{1-h_{ii}}=\hat e_i+\frac{h_{ii}}{1-h_{ii}}\hat e_i=\frac{\hat e_i}{1-h_{ii}} \ . \]

這里的 \(\hat e_i\) 是全數據情形下的第 \(i\) 個殘差,因此

\[{\rm PRESS}=\sum_{i=1}^n\frac{\hat e_i^2}{(1-h_{ii})^2} \ . \]

若要計算 \({\rm PRESS}_q\) ,只需將 \(h_{ii}\) 換成 \(X_q\left(X_q'X_q\right)^{-1}X_q'\) ,即選模型的帽子矩陣的第 \(i\) 個對角線元素,將 \(\hat e_i\) 換成全數據情形下選模型的第 \(i\) 個殘差即可。

我們選擇使得 \({\rm PRESS}_q\) 達到最小的自變量子集,這就是預測殘差平方和准則。

5.3 自變量選擇的方法

在多元線性回歸分析中,\(p\) 個自變量的所有可能的子集可以構成 \(2^p-1\) 個線性回歸模型。當可供選擇的自變量個數不太多時,利用前面介紹的自變量選擇准則可以挑選出最優的線性回歸模型。然而,當自變量的個數較多時,以上方法就不太適用了。為此,我們介紹一些較為簡潔、快捷的自變量選擇的方法。這些方法各有優缺點,沒有絕對最優的方法。

5.3.1 向前法

向前法的思想是回歸模型中的自變量由少到多,每次增加一個,直到沒有可引入的自變量為止。

Step 1:因變量 \(y\) 對每個自變量 \(x_1,x_2,\cdots,x_p\) 分別建立一元線性回歸模型。分別計算這 \(p\) 個回歸模型的 \(p\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\) 。選其最大者,記為

\[F_j^{(1)}=\max\left\{F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\right\} \ . \]

給定顯著性水平 \(\alpha\) ,若 \(F_j^{(1)}>F_\alpha(1,n-2)\) ,則首先將 \(x_j\) 引入回歸模型。不妨假設 \(x_j\) 就是 \(x_1\)

Step 2:因變量 \(y\) 對每組自變量 \((x_1,x_2),(x_1,x_3),\cdots,(x_1,x_p)\) 分別建立二元線性回歸模型。分別計算這 \(p-1\) 個回歸模型中\(x_2,x_3,\cdots,x_p\) 的回歸系數計算 \(F\) 值,記為 \(F_2^{(2)},F_3^{(2)}\cdots,F_p^{(2)}\) 。選其最大者,記為

\[F_j^{(2)}=\max\left\{F_2^{(2)},F_3^{(2)},\cdots,F_p^{(2)}\right\} \ . \]

給定顯著性水平 \(\alpha\) ,若 \(F_j^{(2)}>F_\alpha(1,n-3)\) ,則首先將 \(x_j\) 引入回歸模型。不妨假設 \(x_j\) 就是 \(x_2\)

Step 3:繼續以上做法,假設已確定選入 \(q\) 個自變量 \(x_1,x_2,\cdots,x_q\) ,在建立 \(q+1\) 元線性回歸模型時,若所有的 \(x_{q+1},\cdots,x_p\)\(F\) 值均不大於 \(F_\alpha(1,n-q-2)\) ,則變量選擇結束。這時得到的 \(q\) 元線性回歸模型就是向前法所確定的最優回歸模型。

向前法的缺點是不能反映引入新變量后的變化情況。因為某個自變量可能剛開始時是顯著的,但是當引入其他自變量后,它就變得不顯著了,但是沒有機會將其剔除。即一旦引入就是“終身制”的。

5.3.2 向后法

向后法的思想是選入的自變量個數由多到少,每次剔除一個,直到沒有可剔除的自變量為止。

Step 1:因變量 \(y\) 對所有自變量 \(x_1,x_2,\cdots,x_p\) 建立一個 \(p\) 元線性回歸模型,分別計算 \(p\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\) 。選其最小者,記為

\[F_j^{(p)}=\min\left\{F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\right\} \ . \]

給定顯著性水平 \(\beta\) ,若 \(F_j^{(p)}\leq F_\beta(1,n-p-1)\) ,則從回歸模型中剔除 \(x_j\) 。不妨假設 \(x_j\) 就是 \(x_p\)

Step 2:因變量 \(y\) 對自變量 \(x_1,x_2,\cdots,x_{p-1}\) 建立一個 \(p-1\) 元線性回歸模型。分別計算 \(p-1\) 個回歸系數的 \(F\) 值,記為 \(F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\) 。選其最小者,記為

\[F_j^{(p-1)}=\min\left\{F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\right\} \ . \]

給定顯著性水平 \(\beta\) ,若 \(F_j^{(p-1)}\leq F_\beta(1,n-p)\) ,則從回歸模型中剔除 \(x_j\) 。不妨假設 \(x_j\) 就是 \(x_{p-1}\)

Step 3:繼續以上做法,假設已確定剔除 \(p-q\) 個自變量 \(x_{q+1},\cdots,x_p\) ,在 \(y\) 關於 \(x_1,x_2,\cdots,x_q\) 建立 \(q\) 元線性回歸模型時,若所有 \(x_1,x_2,\cdots,x_q\)\(F\) 值均大於 \(F_\beta(1,n-q-1)\) ,則變量選擇結束。這時得到的 \(q\) 元線性回歸模型就是向后法所確定的最優回歸模型。

向后法的缺點是一開始就把所有自變量引入回歸模型,這樣的計算量很大。另外,自變量一旦被剔除,將永遠沒有機會再重新進入回歸模型,即“一棒子打死”的。

5.3.3 逐步回歸法

逐步回歸法的基本思想是有進有出。

將自變量一個一個地引入回歸模型,每引入一個自變量后,都要對已選入的自變量進行逐個檢驗,當先引入的自變量由於后引入的自變量而變得不再顯著時,就要將其剔除。將這個過程反復進行下去,直到既無顯著的自變量引入回歸模型,也無不顯著的自變量從回歸模型中剔除為止。這樣就避免了向前法和向后法各自的缺點,以保證最后得到的自變量子集是“最優”的自變量子集。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM