回歸分析06:回歸參數的估計(4)


Chapter 6:回歸參數的估計(4)

3.8 嶺估計

3.8.1 嶺估計的定義和性質

當自變量之間具有多重共線性時,嶺估計是一種為了克服最小二乘估計的方差較大的問題而提出的改進的最小二乘估計方法。

嶺估計的主要思想為:多重共線性下的設計矩陣 \(X\) 是病態的,即 \(\left|X'X\right|\approx0\) ,從而使得 \(\left(X'X\right)^{-1}\) 接近奇異。為避免這一現象,給 \(X'X\) 加上一個正常數對角矩陣 \(kI\ (k>0)\) ,使得矩陣 \(\left(X'X+kI\right)^{-1}\) 接近奇異的可能性要比 \(\left(X'X\right)^{-1}\) 接近奇異的可能性小得多。因此用

\[\hat\beta(k)=\left(X'X+kI\right)^{-1}X'Y \]

作為未知參數 \(\beta\) 的估計,可以得到比最小二乘估計 \(\hat\beta\) 更加穩定的估計。

嶺估計:對給定的 \(k>0\) ,稱 \(\hat\beta(k)=\left(X'X+kI\right)^{-1}X'Y\) 為回歸系數 \(\beta\) 的嶺估計。由嶺估計所建立的回歸方程稱為嶺回歸方程,稱 \(k\) 為嶺參數。對於 \(\hat\beta(k)\) 的分量 \(\hat\beta_j(k)\) ,把在平面直角坐標系中 \(\hat\beta_j(k)\) 關於 \(k\) 的變化所表現出來的曲線稱為嶺跡。

  • 嶺估計 \(\hat\beta(k)\) 是一個關於 \(k\) 的估計類。當 \(k=0\) 時,\(\hat\beta(k)\) 就是通常的最小二乘估計。
  • 在進行嶺估計之前,需要消除量綱的影響,故假設自變量與因變量均已標准化,故這里的所討論的設計矩陣 \(X\) 均是 \(n\times p\) 的矩陣。

性質 1:嶺估計 \(\hat\beta(k)\)\(\beta\) 的有偏估計,即對 \(\forall k>0\)\({\rm E}\left[\hat\beta(k)\right]\neq\beta\)

當自變量之間存在多重共線性時,最小二乘估計雖然保持偏差部分為 \(0\) ,但它的方差部分卻很大,最終導致它的均方誤差很大。嶺估計的引入就是一種犧牲無偏性,換取方差的大幅度減少,從而降低均方誤差的方法。

性質 2:嶺估計 \(\hat\beta(k)\) 是最小二乘估計 \(\hat\beta\) 的一個線性變換。

只需注意到

\[\begin{aligned} \hat\beta(k)&=\left(X'X+kI\right)^{-1}X'Y \\ \\ &=\left(X'X+kI\right)^{-1}X'X\left(X'X\right)^{-1}XY \\ \\ &=\left(X'X+kI\right)^{-1}X'X\hat\beta \ . \end{aligned} \]

性質 3:對任意的 \(k>0\) ,若 \(\left\|\hat\beta\right\|\neq0\) ,則總有 \(\left\|\hat\beta(k)\right\|<\left\|\hat\beta\right\|\) 。即嶺估計是把最小二乘估計 \(\hat\beta\) 向原點作適度的壓縮而得到的,嶺估計是一個壓縮的有偏估計。

考慮多元線性回歸模型 \(Y=X\beta+e\) ,令

\[Z=XP \ , \quad \alpha=P'\beta \ , \]

其中 \(P\) 為正交矩陣,滿足

\[P'X'XP=\Lambda={\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_p\right) \ , \]

這里 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\)\(X'X\) 的特征根。將多元線性回歸模型寫為

\[Y=Z\alpha+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ . \]

我們將上述模型稱為線性回歸模型的典則形式,稱 \(\alpha\) 為典則回歸系數。

注意到 \(Z'Z=P'X'XP=\Lambda\) ,所以

\[\hat\alpha=\left(Z'Z\right)^{-1}Z'Y=\Lambda^{-1}Z'Y \ . \]

而又因為

\[\hat\beta=\left(X'X\right)^{-1}X'Y=P\Lambda^{-1}P'X'Y=P\Lambda^{-1}Z'Y=P\hat\alpha \ . \]

它們相應的嶺估計為

\[\begin{aligned} \hat\alpha(k)&=\left(Z'Z+kI\right)^{-1}Z'Y=\left(\Lambda+kI\right)^{-1}Z'Y \ . \\ \\ \hat\beta(k)&=\left(X'X+kI\right)^{-1}X'Y \\ \\ &=PP'\left(X'X+kI\right)^{-1}PP'X'Y \\ \\ &=P\hat\alpha(k) \ . \end{aligned} \]

因此有

\[\left\|\hat\beta(k)\right\|=\left\|\hat\alpha(k)\right\|=\left\|\left(\Lambda+kI\right)^{-1}\Lambda\hat\alpha\right\|<\left\|\hat\alpha\right\|=\left\|\hat\beta\right\| \ . \]

容易證明,典則回歸系數的最小二乘估計(或嶺估計)和原回歸系數的最小二乘估計(或嶺估計)具有相同的均方誤差:

\[{\rm MSE}(\hat\alpha)={\rm MSE}(\hat\beta) \ , \quad {\rm MSE}(\hat\alpha(k))={\rm MSE}(\hat\beta(k)) \ . \]

定理 3.8.1 (嶺估計存在定理):存在 \(k>0\) ,使得在均方誤差意義下,嶺估計優於最小二乘估計,即

\[{\rm MSE}(\hat\beta(k))<{\rm MSE}(\hat\beta) \ . \]

由嶺估計的性質 3 可知,只需證存在 \(k>0\) ,使得

\[{\rm MSE}(\hat\alpha(k))<{\rm MSE}(\hat\alpha) \ . \]

\(f(k)={\rm MSE}(\hat\alpha(k)),\,k\geq0\) 。注意 \(f(0)={\rm MSE}(\hat\alpha)\) 。只需證明 \(f(k)\)\([0,\infty)\) 上是連續函數且 \(f'(0)<0\) ,則必存在一個較小的 \(k>0\) 使得上述不等式成立。

注意到

\[\begin{aligned} {\rm E}\left[\hat\alpha(k)\right]&=\left(\Lambda+kI\right)^{-1}Z'{\rm E}(Y) \\ \\ &=\left(\Lambda+kI\right)^{-1}Z'Z\alpha \\ \\ &=\left(\Lambda+kI\right)^{-1}\Lambda\alpha \ , \\ \\ {\rm Cov}\left[\hat\alpha(k)\right]&=\sigma^2\left(\Lambda+kI\right)^{-1}Z'Z\left(\Lambda+kI\right)^{-1} \\ \\ &=\sigma^2\left(\Lambda+kI\right)^{-1}\Lambda\left(\Lambda+kI\right)^{-1} \ . \end{aligned} \]

所以

\[\begin{aligned} f(k)&={\rm MSE}(\hat\alpha(k))={\rm tr}\left[{\rm Cov}\left[\hat\alpha(k)\right]\right]+\left\|{\rm E}\left[\hat\alpha(k)\right]-\alpha\right\|^2 \\ \\ &=\sigma^2\sum_{j=1}^p\frac{\lambda_j}{\left(\lambda_j+k\right)^2}+k^2\sum_{j=1}^p\frac{\alpha_j^2}{\left(\lambda_j+k\right)^2} \\ \\ &\xlongequal{def}f_1(k)+f_2(k) \ . \end{aligned} \]

顯然 \(f(k)\)\([0,\infty)\) 上的連續函數,又因為

\[f_1'(k)=-2\sigma^2\sum_{j=1}^p\frac{\lambda_j}{\left(\lambda_j+k\right)^3} \ , \quad f_1'(0)=-2\sigma^2\sum_{j=1}^p\frac{1}{\lambda_j^2}<0 \ , \]

以及

\[f_2'(k)=2k\sum_{j=1}^p\frac{\lambda_j\alpha_j^2}{\left(\lambda_j+k\right)^3} \ , \quad f_2'(0)=0 \ , \]

所以

\[f'(0)=f_1'(0)+f_2'(0)=-2\sigma^2\sum_{j=1}^p\frac{1}{\lambda_j^2}<0 \ . \]

嶺估計的存在性定理從理論上證明了存在某個嶺估計優於最小二乘估計,但要找出這個嶺參數 \(k\) 是不容易的。這個解依賴於未知參數 \(\alpha_i,\,i=1,2,\cdots,p\)\(\sigma^2\) ,所以不可能從解方程的角度獲得。因此,我們需要提出從其他途徑選擇嶺參數 \(k\) 的方法。

3.8.2 嶺參數的選擇方法

(1) Hoerl-Kennard 公式

Hoerl 和 Kennard 提出的選擇嶺參數 \(k\) 的公式為

\[\hat k=\frac{\hat\sigma^2}{\max\limits_i\hat\alpha_i^2} \ . \]

注意到,理論上的最優嶺參數是下列方程的解:令 \(f'(k)=0\) ,則有

\[f'(k)=-2\sigma^2\sum_{i=1}^p\frac{\lambda_i}{\left(\lambda_i+k\right)^3}+2k\sum_{i=1}^p\frac{\lambda_i\alpha_i^2}{\left(\lambda_i+k\right)^3}=2\sum_{i=1}^p\frac{\lambda_i\left(k\alpha_i^2-\sigma^2\right)}{\left(\lambda_i+k\right)^3}=0 \ . \]

\(k\alpha_i^2-\sigma^2<0\)\(i=1,2,\cdots,p\) 都成立,則 \(f'(k)<0\) ,於是取

\[k^*=\frac{\hat\sigma^2}{\max\limits_i\hat\alpha_i^2} \ , \]

\(0<k<k^*\) 時,\(f'(k)<0\) 恆成立,因而 \(f(k)\)\((0,k^*)\) 上是單調遞減函數。再由 \(f(k)\)\((0,k^*)\) 上的連續函數得到 \(f(k^*)<f(0)\) 。用 \(\hat\alpha_i\)\(\hat\sigma^2\) 代替 \(\alpha_i\)\(\sigma^2\) 即可得到我們需要的嶺參數 \(\hat k\)

(2) 嶺跡法

\(\hat\beta_1(k),\hat\beta_2(k),\cdots,\hat\beta_p(k)\) 的嶺跡畫在一張圖上,根據嶺跡的變化趨勢選擇嶺參數 \(k\) 。以下是幾條選擇嶺參數 \(k\) 的准則:

  • 各回歸系數的嶺估計大致趨於穩定;
  • 用最小二乘估計時符號不合理的回歸系數,其嶺估計的符號變得合理;
  • 殘差平方和不要上升太多;

一般情況下,我們選擇使得各條嶺跡均開始趨於穩定的最小的 \(k\) 值。

3.8.3 嶺估計的幾何意義

前面已經證明,嶺估計 \(\hat\beta(k)\) 是最小二乘估計 \(\hat\beta\) 的一種壓縮。如果我們已經有了 \(\hat\beta\) ,希望將它的長度壓縮到原來的 \(c\)\((0<c<1)\) ,並使殘差平方和上升盡可能小,可以證明,這樣的估計就是嶺估計。

\(b\)\(\beta\) 的任意估計,對應的殘差平方和為

\[\begin{aligned} {\rm RSS}(b)&=\left\|Y-Xb\right\|^2 \\ \\ &=\left\|Y-X\hat\beta+X(\hat\beta-b)\right\|^2 \\ \\ &=\left\|Y-X\hat\beta\right\|^2+(\hat\beta-b)'X'X(\hat\beta-b) \ . \end{aligned} \]

所以,將 \(\hat\beta\) 的長度壓縮到原來的 \(c\) 倍,且使殘差平方和上升最小,等價於求解下列極值問題:

\[\begin{aligned} \min_b \quad &(b-\hat\beta)'X'X(b-\hat\beta) \ , \\ {\rm s.t.}\quad & \|b\|^2=\left\|c\hat\beta\right\|^2 \ . \end{aligned} \]

\(P\) 為正交矩陣,滿足

\[P'X'XP=\Lambda={\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_p\right) \ , \]

其中 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\)\(X'X\) 的特征根。記

\[\alpha=P'\beta \ , \quad d=P'b \ , \quad \hat\alpha=P'\hat\beta \ . \]

顯然上述極值問題等價於

\[\begin{aligned} \min_d \quad &(d-\hat\alpha)'\Lambda(d-\hat\alpha) \ , \\ {\rm s.t.}\quad & \|d\|^2=\left\|c\hat\alpha\right\|^2 \ . \end{aligned} \]

用 Lagrange 乘子法,構造輔助函數

\[F(d,k)=(d-\hat\alpha)'\Lambda(d-\hat\alpha)+k\left(d'd-c^2\left\|\hat\alpha\right\|^2\right) \ , \]

其中 \(k\ (k\neq0)\) 為 Lagrange 乘子。對上式關於 \(d\) 求導,並令其等於 \(0\) ,則有

\[\frac{\partial F(d,k)}{\partial d}=2(\Lambda+kI)d-2\Lambda\hat\alpha=0 \ . \]

解得

\[d=(\Lambda+kI)^{-1}\Lambda\hat\alpha \ , \quad \Longrightarrow \quad b=\left(X'X+kI\right)^{-1}X'Y \ . \]

下面只需證 \(k>0\) 。將 \(d\) 的解析表達式代入目標函數中,記為 \(Q(k)\) ,於是

\[\begin{aligned} Q(k)&=(d-\hat\alpha)'\Lambda(d-\hat\alpha) \\ \\ &=\hat\alpha'\left[\left((\Lambda+kI)^{-1}\Lambda-I\right)'\Lambda\left((\Lambda+kI)^{-1}\Lambda-I\right)\right]\hat\alpha \\ \\ &=k^2\hat\alpha'{\rm diag}\left(\frac{\lambda_1}{\left(\lambda_1+k\right)^2},\frac{\lambda_2}{\left(\lambda_2+k\right)^2},\cdots,\frac{\lambda_p}{\left(\lambda_p+k\right)^2}\right)\hat\alpha \\ \\ &=k^2\sum_{i=1}^p\frac{\lambda_i\hat\alpha_i^2}{\left(\lambda_i+k\right)^2} \ . \end{aligned} \]

由於 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\) ,所以對 \(k>0\) ,都有 \(\left(\lambda_i+k\right)^2>(\lambda_i-k)^2\) ,所以 \(Q(k)<Q(-k)\) 。這說明 \(Q(k)\) 的極小值不會在 \((-\infty,0)\) 上取到,所以該極值問題取到極值點時,一定有 \(k>0\)

從幾何上說,約束條件 \(\|b\|^2=\left\|c\hat\beta\right\|^2\xlongequal{def}h^2\) 是一個中心在原點,半徑為 \(h\) 的球面。對目標函數作橢球

\[(b-\hat\beta)'X'X(b-\hat\beta)=\delta^2 \ , \]

因為 \(0<c<1\) ,所以 \(\hat\beta\)\(\|b\|^2=\left\|c\hat\beta\right\|^2=h^2\) 的球面之外。故總可以找到 \(\delta>0\) 使得球 \(\|b\|^2=h^2\) 和目標函數的橢球相切於某點 \(\tilde\beta\) 。這個 \(\tilde\beta\) 就是上述極值問題的解,也就是嶺估計 \(\hat\beta(k)\)

以二維向量為例,該極值問題如下圖所示

圖片名稱

容易看出,該極值問題與如下優化問題等價:

\[\min_\beta\ \|Y-X\beta\|^2+\lambda\|\beta\|^2 \ , \]

其中 \(\lambda\geq0\) 稱為調節參數。在這個優化問題中,\(\|Y-X\beta\|^2\) 稱為損失函數,\(\|\beta\|^2\) 稱為懲罰函數,參數 \(\lambda\) 用於在損失和懲罰之間控制權衡。

3.9 主成分估計

3.9.1 主成分估計的過程

主成分估計的基本思想:

  1. 首先借助於正交變換將回歸自變量變為對應的主成分,要求主成分的觀測向量是正交的,且某些觀測向量近似為 \(0\) 向量;
  2. 從所有的主成分中刪去觀測向量近似為 \(0\) 的主成分,起到消除多重共線性和降維的雙重作用;
  3. 將保留下來的主成分作為新的回歸自變量建立回歸模型,用最小二乘估計模型中的回歸系數,得到主成分回歸方程。
  4. 基於得到的主成分回歸方程,將它們轉換為原始變量,即可得到原來的回歸方程。

為了消除量綱的影響,假設自變量與因變量均已標准化。考慮回歸模型

\[Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ , \]

\(\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p>0\)\(X'X\) 的特征根,\(\phi_1,\phi_2,\cdots,\phi_p\) 為對應的標准正交化特征向量,則有

\[\Phi=(\phi_1,\phi_2,\cdots,\phi_p) \]

\(p\times p\) 正交矩陣,且有

\[\Phi'X'X\Phi={\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_p\right)\xlongequal{def}\Lambda \ . \]

再記 \(Z=X\Phi,\,\alpha=\Phi'\beta\) ,則線性回歸模型可以改寫為

\[Y=Z\alpha+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ . \]

主成分的性質:任意兩個的主成分的觀測向量都是互不相關的,且第 \(j\) 個主成分的偏差平方和

\[\sum_{i=1}^n\left(z_{ij}-\bar{z}_j\right)^2=\lambda_j \ . \]

因為 \(Z'Z=\Phi'X'X\Phi=\Lambda={\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_p\right)\) ,所以

\[z_j'z_k=0 \ , \quad \forall j\neq k \ , \]

\(z_j'z_j=\lambda_j,\,j=1,2,\cdots,p\) 。又因為 \(X\) 是標准化設計矩陣,所以

\[\bar{z}_j=\frac1n\sum_{i=1}^nz_{ij}=\frac1n\sum_{i=1}^n\sum_{k=1}^p\phi_{kj}x_{ik}=\frac{1}{n}\sum_{k=1}^p\phi_{kj}\sum_{i=1}^nx_{ik}=0 \ . \]

因此有

\[\sum_{i=1}^n\left(z_{ij}-\bar{z}_j\right)^2=\sum_{i=1}^nz_{ij}^2=z_j'z_j=\lambda_j \ , \quad j=1,2,\cdots,p \ . \]

由此可知 \(\lambda_j\) 度量了第 \(j\) 個主成分 \(z_j\) 取值變動的大小。因為 \(\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p>0\) ,所以我們稱 \(z_1\) 為第一主成分,稱 \(z_2\) 為第二主成分,以此類推。這 \(p\) 個主成分的觀測向量是正交的。

由主成分的性質可知,\(z_1\) 對因變量的解釋能力最強,\(z_2\) 次之,\(z_p\) 最弱。若設計矩陣 \(X\) 是病態矩陣,則存在一些 \(X'X\) 的特征根接近於 \(0\)

不妨設 \(\lambda_{r+1},\lambda_{r+2},\cdots,\lambda_p\approx0\) ,此時后面的 \(p-r\) 個主成分的取值變動就很小,且均在 \(0\) 附近取值,所以這 \(p-r\) 個主成分對因變量的影響可以忽略,可將它們從回歸模型中剔除。

剩下的主成分 \(z_1,z_2,\cdots,z_r\) 就不存在多重共線性問題,用最小二乘法對剩下的 \(r\) 個主成分做回歸即可。

我們用分塊的方式建立回歸方程:對 \(\Lambda,\alpha,Z,\Phi\) 進行分塊

\[\Lambda=\begin{pmatrix} \Lambda_1 & 0 \\ 0 & \Lambda_2 \end{pmatrix} \ , \quad \alpha=\begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} \ , \quad Z=\left(\begin{array}{c:c}Z_1&Z_2\end{array}\right) \ , \quad \Phi=\left(\begin{array}{c:c}\Phi_1& \Phi_2\end{array}\right) \ , \]

其中 \(\Lambda_1\)\(r\times r\) 矩陣,\(\alpha_1\)\(r\times1\) 向量,\(Z_1\)\(n\times r\) 矩陣,\(\Phi_1\)\(p\times r\) 矩陣。因為 \(Z_2\) 近似是 \(0\) 矩陣,所以剔除 \(Z_2\alpha_2\) ,模型可以寫為

\[Y\approx Z_1\alpha_1+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ . \]

這里 \(Z_1\) 不是病態矩陣,因為 \(Z_1'Z_1\) 的特征根為 \(\lambda_1,\lambda_2,\cdots,\lambda_r\) 均遠離 \(0\) ,所以可直接利用最小二乘法求得 \(\alpha_1\) 的最小二乘估計

\[\hat\alpha_1=\left(Z_1'Z_1\right)^{-1}Z_1'Y=\Lambda_1^{-1}Z_1'Y \ . \]

前面我們從模型中剔除了后面的 \(p-r\) 個主成分,這相當於我們用 \(\hat\alpha_2=0\) 來估計 \(\alpha_2\) ,利用 \(\beta=\Phi\alpha\) 可以得到 \(\beta\) 的主成分估計為

\[\begin{aligned} \tilde\beta=\Phi\hat\alpha=\left(\begin{array}{c:c}\Phi_1& \Phi_2\end{array}\right)\begin{pmatrix} \hat\alpha_1 \\ \hat\alpha_2 \end{pmatrix}=\Phi_1\hat\alpha_1=\Phi_1\Lambda_1^{-1}Z_1'Y=\Phi_1\Lambda_1^{-1}\Phi_1'X'Y \ . \end{aligned} \]

相應的主成分回歸方程為 \(\hat{Y}=X\tilde{\beta}\)

3.9.2 主成分估計的性質

上述主成分估計的過程可以概括為以下三步:

  1. 做正交變換 \(Z=X\Phi\) ,獲得新的自變量,稱為主成分;
  2. 做回歸自變量選擇,提出特征根比較小的主成分;
  3. 用標准化后的 \(y\) 對剩余的主成分做回歸,得到最小二乘估計和主成分回歸方程,再將這個回歸方程轉換為關於原始變量的回歸方程。

經過上述過程得到的估計量 \(\tilde\beta\) 稱為 \(\beta\) 的主成分估計,下面我們來研究 \(\tilde\beta\) 的統計性質。

性質 1:主成分估計 \(\tilde\beta=\Phi_1\Phi_1'\hat\beta\) 是最小二乘估計的一個線性變換。

根據下列關系

\[\Phi_1'\Phi_1=I_r \ , \quad \Phi_1'\Phi_2=0 \ , \quad X'X=\Phi\Lambda\Phi'=\Phi_1\Lambda_1\Phi_1'+\Phi_2\Lambda_2\Phi_2' \ , \]

可以得到

\[\begin{aligned} \tilde\beta&=\Phi_1\Lambda_1^{-1}\Phi_1'X'Y \\ \\ &=\Phi_1\Lambda_1^{-1}\Phi_1'X'X\hat\beta \\ \\ &=\Phi_1\Lambda_1^{-1}\Phi_1'\Phi_1\Lambda_1\Phi_1'\hat\beta+\Phi_1\Lambda_1^{-1}\Phi_1'\Phi_2\Lambda_2\Phi_2'\hat\beta \\ \\ &=\Phi_1\Phi_1'\hat\beta \ . \end{aligned} \]

性質 2\({\rm E}(\tilde{\beta})=\Phi_1\Phi_1'\beta\) ,即只要 \(r<p\) ,主成分估計就是有偏估計。

性質 3\(\left\|\tilde\beta\right\|\leq\left\|\hat\beta\right\|\) ,即主成分估計是壓縮估計。

構造 \(p\times p\) 矩陣 \(\tilde I={\rm diag}\left(I_r,0\right)\) ,則由 \(\Phi\) 的定義可知

\[\Phi_1\Phi_1'=\Phi\tilde{I}\Phi' \ . \]

從而有

\[\left\|\tilde\beta\right\|=\left\|\Phi\tilde{I}\Phi'\hat\beta\right\|=\left\|\Phi\right\|\left\|\tilde{I}\Phi'\hat\beta\right\|=1\times \left\|\tilde{I}\Phi'\hat\beta\right\|\leq \left\|\Phi'\hat\beta\right\|=\left\|\hat\beta\right\| \ . \]

定理 3.9.1:當原始自變量存在足夠嚴重的多重共線性時,適當選擇保留的主成分個數可使主成分估計比最小二乘估計擁有較小的均方誤差,即

\[{\rm MSE}(\tilde\beta)<{\rm MSE}(\hat\beta) \ . \]

假設 \(X'X\) 的后 \(p-r\) 個特征根 \(\lambda_{r+1},\cdots,\lambda_p\) 很接近於 \(0\) ,不難看出

\[\begin{aligned} {\rm MSE}(\tilde\beta)&={\rm MSE}\begin{pmatrix} \hat\alpha_1 \\ 0 \end{pmatrix} \\ \\ &={\rm tr}\left[{\rm Cov}\begin{pmatrix} \hat\alpha_1 \\ 0 \end{pmatrix} \right]+\left\|{\rm E}\begin{pmatrix} \hat\alpha_1 \\ 0 \end{pmatrix} -\alpha\right\|^2 \\ \\ &=\sigma^2{\rm tr}\left(\Lambda_1^{-1}\right)+\left\|\alpha_2\right\|^2 \ . \end{aligned} \]

因為

\[{\rm MSE}(\hat\beta)=\sigma^2{\rm tr}\left(\Lambda^{-1}\right)=\sigma^2{\rm tr}\left(\Lambda_1^{-1}\right)+\sigma^2{\rm tr}\left(\Lambda_2^{-1}\right) \ , \]

所以

\[{\rm MSE}(\tilde\beta)={\rm MSE}(\hat\beta)+\left(\left\|\alpha_2\right\|^2-\sigma^2{\rm tr}\left(\Lambda_2^{-1}\right)\right) \ . \]

於是

\[{\rm MSE}(\tilde\beta)<{\rm MSE}(\hat\beta) \quad \iff \quad \left\|\alpha_2\right\|^2<\sigma^2{\rm tr}\left(\Lambda_2^{-1}\right)=\sigma^2\sum_{i=r+1}^p\frac{1}{\lambda_i} \ . \]

當多重共線性足夠嚴重的時候,\(\lambda_{r+1},\cdots,\lambda_{p}\) 中的某一個可以充分接近於 \(0\) ,因此上式右端可以足夠大使得該不等式成立。

因為 \(\alpha_2=\Phi_2'\beta\) ,我們可以將上述不等式寫為

\[\left(\frac{\beta}{\sigma}\right)'\Phi_2\Phi_2'\left(\frac{\beta}{\sigma}\right)<{\rm tr}\left(\Lambda_2^{-1}\right) \ , \]

這就是說,當 \(\beta\)\(\sigma\) 滿足該不等式時,主成分估計才比最小二乘估計擁有較小的均方誤差。如果將 \(\beta/\sigma\) 視為參數空間中的一個參數,則上述不等式表示一個中心在原點的橢球,有以下兩個結論:

  • 對給定的參數 \(\beta\)\(\sigma^2\) ,當 \(X'X\) 的后 \(p-r\) 個特征根比較小時,主成分估計比最小二乘估計擁有較小的均方誤差;
  • 對給定的\(X'X\) ,即固定的 \(\Lambda_2\) ,對絕對值相對較小的 \(\beta/\sigma\) ,主成分估計比最小二乘估計擁有較小的均方誤差。

最后我們給出兩條主成分個數 \(r\) 的選取准則:

  1. 略去特征根接近於 \(0\) 的主成分;
  2. 選擇 \(r\) 使得累計貢獻率(前 \(r\) 個特征根之和在 \(p\) 個特征根之和中所占的比例)達到預想給定的值。

根據經驗,在實際操作中,我們一般選擇最小的 \(r\) 使得

\[\frac{\sum_{i=1}^r\lambda_i}{\sum_{i=1}^p\lambda_i}>0.85 \ . \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM