Chapter 5:回歸參數的估計(3)
3.5 Box-Cox 變換
接下來我們關注的問題是,經過回歸診斷后,觀測數據不滿足線性假設、方差齊性假設、不相關假設和正態性假設中的一個或若干個的情況。我們需要對有問題的數據采取一些治療措施,數據變換便是其中之一,其中 Box-Cox 變換是實踐中比較行之有效的一種數據變換方法。
設 \(\lambda\) 是一個待定的變換參數,Box-Cox 變換是對因變量作如下的變換:
Box-Cox 變換是一族變換,它包括了許多常見的變換,如對數變換 \((\lambda=0)\) ,倒數變換 \((\lambda=-1)\) 和平方根變換 \((\lambda=1/2)\) 等等。
對因變量的 \(n\) 個觀測值 \(y_1,y_2,\cdots,y_n\) 作 Box-Cox 變換,得到變換后的觀測向量為
我們希望變換參數 \(\lambda\) 能夠使得 \(Y^{(\lambda)}\) 滿足一個理想的線性回歸模型,即
因此,我們要去變換后的觀測向量 \(Y^{(\lambda)}\) 與回歸自變量之間具有線性相關關系,誤差滿足方差齊性、相互獨立和正態分布。可以看出,Box-Cox 變換是通過對參數 \(\lambda\) 的選擇,達到對原來數據的綜合治理,使其滿足一個正態線性回歸模型的所有假設條件。
下面用極大似然方法來確定 \(\lambda\) 的取值,寫出 \(Y^{(\lambda)}\) 的似然函數
所以 \(Y\) 的似然函數為
其中 \(J\) 為變換的 Jacobi 行列式
對 \(\ln L\left(\beta,\sigma^2;Y\right)\) 關於 \(\beta\) 和 \(\sigma^2\) 求導並令其等於 \(0\) ,可得 \(\beta\) 和 \(\sigma^2\) 的極大似然估計為
對應的極大似然為
這是關於 \(\lambda\) 的函數,繼續求其對數似然的最大值來確定 \(\lambda\) 的極大似然估計,
其中
可以看出,求 \(\ln L_\max(\lambda)\) 的最大值,只需求 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 的最小值。雖然我們很難找到滿足條件的 \(\lambda\) 的解析表達式,但這會給計算機上的實現帶來很大的方便。
Box-Cox 變換計算機實現的具體步驟:
- 對給定的 \(\lambda\) 值,計算 \(z_i^{(\lambda)},\,i=1,2,\cdots,n\) ;
- 計算殘差平方和 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)={Z^{(\lambda)}}'\left(I_n-H\right)Z^{(\lambda)}\) ;
- 給定一系列 \(\lambda\) 值,重復上述步驟,得到一系列相應的殘差平方和,找出使 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 達到最小值的 \(\lambda\) 值。
3.6 廣義最小二乘估計
在前面的討論中,我們總是假定線性回歸模型的誤差是方差齊性且不相關的,即 \({\rm Cov}(e)=\sigma^2I_n\) 。但是在許多實際問題中,數據往往是不滿足這個假設的。上一節中,我們介紹的 Cox-Box 變換是一種通用的但較為復雜的修正數據的措施,這一節我們僅考慮不滿足方差齊性且不相關假設的問題,並對此提出有針對性的解決方案。
我們要討論的是具有異方差和自相關問題的線性回歸模型為
這里 \(\Sigma\) 是一個對稱正定矩陣,假設 \(\Sigma\) 是完全已知的,我們的主要目的是估計 \(\beta\) 。
因為 \(\Sigma\) 是對稱正定矩陣,所以存在 \(n\times n\) 的正交矩陣 \(P\) 使得
這里 \(\lambda_i>0,\,i=1,2,\cdots,n\) 是 \(\Sigma\) 的特征根。記 \(\Sigma^{1/2}\) 是 \(\Sigma\) 的平方根陣,\(\Sigma^{-1/2}\) 是 \(\Sigma^{1/2}\) 的逆矩陣,滿足
我們對上述線性回歸模型進行正交變換,用 \(\Sigma^{-1/2}\) 左乘,記
因為 \({\rm Cov}(\varepsilon)=\Sigma^{-1/2}\sigma^2\Sigma\Sigma^{-1/2}=\sigma^2I_n\) ,於是得到如下的線性回歸模型
在新模型中,可得 \(\beta\) 的最小二乘估計為
我們稱之為 \(\beta\) 的廣義最小二乘估計 (GLSE) ,注意它與 \(\sigma^2\) 無關,也具有良好的統計性質。
定理 3.6.1 對於具有異方差和自相關問題的線性回歸模型,下列結論成立:
(1) \({\rm E}\left(\beta^*\right)=\beta\) ;
(2) \({\rm Cov}\left(\beta^*\right)=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}\) ;
(3) 對任意的 \(p+1\) 維列向量 \(c\) ,有 \(c'\beta^*\) 是 \(c'\beta\) 的唯一最小方差線性無偏估計。
(1) 根據 \(\beta\) 的廣義最小二乘估計的表達式,求數學期望可得
\[\begin{aligned} {\rm E}\left(\beta^*\right)&=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm E}\left(Y\right)=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}X\beta=\beta \ . \end{aligned} \](2) 利用定理 2.1.3 可得
\[\begin{aligned} {\rm Cov}\left(\beta^*\right)&={\rm Cov}\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}Y\right] \\ \\ &=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm Cov}\left(Y\right)\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\Sigma\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1} \ . \end{aligned} \](c) 設 \(b'Y\) 是 \(c'\beta\) 的任意線性無偏估計,對於正交變換后的模型,我們有
\[c'\beta^*=c'\left(U'U\right)^{-1}U'Z \ , \quad b'Y=b'\Sigma^{1/2}\Sigma^{-1/2}Y=b'\Sigma^{1/2}Z \ , \]即 \(c'\beta^*\) 為 \(c'\beta\) 的最小二乘估計,它是 \(c'\beta\) 的線性無偏估計,而 \(b'Y=b'\Sigma^{1/2}Z\) 也是 \(c'\beta\) 的線性無偏估計。所以對正交變換后的模型應用 Gauss-Markov 定理可知 \(c'\beta^*\) 是 \(c'\beta\) 的唯一最小方差線性無偏估計。
廣義最小二乘估計最常見的應用場景就是因變量的不同觀測具有異方差的情形,即
這里的 \(\sigma_i^2,\,i=1,2,\cdots,n\) 不全相等。記 \(x_1',x_2',\cdots,x_n'\) 分別是設計矩陣 \(X\) 的 \(n\) 個行向量,容易推出
兩個和式分別為 \(x_ix_i'\) 和 \(x_iy_i\) 的權重為 \(1/\sigma_i^2\) 的加權和,故這里 \(\beta^*\) 也稱為加權最小二乘估計 (WLSE) 。實際中的 \(\sigma_i^2\) 往往是未知的,這時我們需要設法求得它們的估計 \(\hat\sigma_i^2\) ,然后用 \(\hat\sigma_i^2\) 代替 \(\sigma_i^2\) 進行估計,這種估計方法稱為兩步估計。
3.7 多重共線性
3.7.1 多重共線性的定義
在之前的討論中,最小二乘估計是需要假設設計矩陣 \(X\) 是列滿秩的,即要求矩陣 \(X\) 的列向量之間是線性無關的。然而,實際問題中的自變量之間往往不是孤立的,而是相互聯系的,這就會導致設計矩陣 \(X\) 的列向量不可能完全線性無關。這就是多重共線性問題。
-
完全共線性:若存在不全為 \(0\) 的 \(p+1\) 的常數 \(c_0,c_1,\cdots,c_p\) 使得
\[c_0+c_1x_{i1}+\cdots+c_px_{ip}=0 \ , \quad i=1,2,\cdots,n \ , \]則稱自變量 \(x_1,x_2,\cdots,x_p\) 之間存在着完全共線性關系。
-
多重共線性:若存在不全為 \(0\) 的 \(p+1\) 的常數 \(c_0,c_1,\cdots,c_p\) 使得
\[c_0+c_1x_{i1}+\cdots+c_px_{ip}\approx0 \ , \quad i=1,2,\cdots,n \ , \]則稱自變量 \(x_1,x_2,\cdots,x_p\) 之間存在着多重共線性關系。
對經濟數據建模時,完全共線性關系並不多見,但多重共線性關系的情形則很常見。由於多重共線性會造成估計量方差的估計不准確,所以我們需要引入另一個評價估計量優劣的標准——均方誤差。
設 \(\theta\) 為一個列向量,\(\hat\theta\) 為 \(\theta\) 的一個估計,定義 \(\hat\theta\) 的均方誤差為
定理 3.7.1:均方誤差滿足如下公式:
不難看出
\[\begin{aligned} {\rm MSE}(\hat\theta)&={\rm E}\left[(\hat\theta-\theta)'(\hat\theta-\theta)\right] \\ \\ &={\rm E}\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right]'\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right] \\ \\ &={\rm E}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]+{\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right] \\ \\ &\xlongequal{def}\Delta_1+\Delta_2 \ . \end{aligned} \]利用矩陣的跡的性質,
\[\begin{aligned} \Delta_1&={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]\right\} \\ \\ &={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]\right\} \\ \\ &={\rm tr}\left[{\rm E}\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]={\rm tr}\left[{\rm Cov}(\hat\theta)\right] \ . \\ \\ \Delta_2&={\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right]=\left\|{\rm E}(\hat\theta)-\theta\right\|^2 \ . \end{aligned} \]后者是顯然的,定理證畢。
若記 \(\hat\theta=(\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_{p})'\) ,則有
即 \(\Delta_1\) 是 \(\hat\theta\) 的各個分量的方差之和,而 \(\Delta_2\) 是 \(\hat\theta\) 的各個分量的偏差平方和。所以,一個估計的均方誤差由它的方差和偏差平方所決定。一個好的估計應該有較小的方差和偏差平方。
定理3.7.2:在線性回歸模型中,對 \(\beta\) 的最小二乘估計 \(\hat\beta\) 有
其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\) 為對稱正定矩陣 \(X'X\) 的特征根。
(1) 因為 \(\hat\beta\) 是無偏估計,所以 \(\Delta_2=0\) ,於是
\[{\rm MSE}(\hat\beta)=\Delta_1={\rm tr}\left[{\rm Cov}(\hat\beta)\right]=\sigma^2{\rm tr}\left[\left(X'X\right)^{-1}\right] \ . \]因為 \(X'X\) 是對稱正定矩陣,所以存在正交陣 \(P\) 使得
\[X'X=P{\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}\right)P' \ , \]其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\) 為 \(X'X\) 的特征根,所以有
\[\left(X'X\right)^{-1}=P{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)P' \ . \]利用矩陣的跡的性質可得
\[{\rm tr}\left[\left(X'X\right)^{-1}\right]={\rm tr}\left[{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)\right]=\sum_{i=1}^{p+1}\frac{1}{\lambda_i} \ . \]所以證得
\[{\rm MSE}(\hat\beta)=\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \](2) 根據均方誤差的定義可得
\[\begin{aligned} {\rm MSE}(\hat\beta)&={\rm E}\left[(\hat\beta-\beta)'(\hat\beta-\beta)\right] \\ \\ &={\rm E}\left[\hat\beta'\hat\beta-2\beta'\hat\beta+\beta'\beta\right] \\ \\ &={\rm E}\left\|\hat\beta\right\|^2-\|\beta\|^2 \ , \end{aligned} \]於是有
\[{\rm E}\left\|\hat\beta\right\|^2=\|\beta\|^2 +{\rm MSE}(\hat\beta)=\|\beta\|^2 +\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \]
結論 (1) 說明,如果 \(X'X\) 至少有一個非常小的特征根,即非常接近於 \(0\) ,則 \({\rm MSE}(\hat\beta)\) 就會很大,此時最小二乘估計 \(\hat\beta\) 就不是一個很好的估計。這和 Gauss-Markov 定理並不矛盾,因為 Gauss-Markov 定理中的最小方差性仍然成立,只不過此時這個最小的方差本身就很大,因而導致了很大的均方誤差。
結論 (2) 說明,如果 \(X'X\) 至少有一個非常小的特征根,則最小二乘估計 \(\hat\beta\) 的長度的平均值就要比真正的 \(\beta\) 的長度長很多,這就導致了 \(\hat\beta\) 的某些分量的絕對值被過度高估。
那么問題來了,如果 \(X'X\) 至少有一個非常小的特征根,這和多重共線性有什么關系呢?
設 \(X=\left(\boldsymbol 1_n,x_1,x_2,\cdots,x_p\right)\) ,即 \(x_i\) 表示 \(X\) 的第 \(i+1\) 列。設 \(\lambda\) 為 \(X'X\) 的一個特征根,\(\phi\) 為其對應的特征向量,不妨設其長度為 \(1\) ,即 \(\phi'\phi=1\) 。且根據特征根的性質有 \(X'X\phi=\lambda\phi\) 。
若 \(\lambda\approx0\) ,則有
於是 \(X\phi\approx0\) 。記 \(\phi=\left(c_0,c_1,\cdots,c_p\right)'\) ,則有
即設計矩陣 \(X\) 的列向量之間具有多重共線性。
反之,若設計矩陣 \(X\) 的列向量之間具有多重共線性,此時 \(X'X\) 仍是正定矩陣,但 \(\left|X'X\right|\approx0\) ,由此可知
所以 \(X'X\) 至少有一個非常小的特征根,接近於 \(0\) 。
綜上所述,\(X'X\) 至少有一個非常小的特征根與 \(X\) 的列向量之間具有多重共線性是等價的,這時稱設計矩陣 \(X\) 為病態矩陣。
3.7.2 多重共線性的診斷
以上我們介紹了多重共線性的定義,以及多重共線性下設計矩陣 \(X\) 的特征。注意到,一個回歸模型是否具有多重共線性與被解釋變量 \(Y\) 是無關的,因此我們可以通過設計矩陣 \(X\) 的某些特征對多重共線性進行診斷。
(1) 方差膨脹因子診斷法
這種方法從多重共線性的自變量之間具有線性相關性的角度出發,記 \(R_j^2\) 為自變量 \(x_j\) 對其余 \(p-1\) 個自變量的判定系數,定義方差膨脹因子為
由於 \(R_j^2\) 度量了自變量 \(x_j\) 對其余 \(p-1\) 個自變量之間的線性相關程度,若 \(x_1,x_2,\cdots,x_p\) 之間的多重共線性越嚴重,\(R_j^2\) 就越接近於 \(1\) ,此時 \({\rm VIF}_j\) 也就越大。因此,用 \({\rm VIF}\) 來度量多重共線性是合理的。
度量的准則:當有某個 \({\rm VIF}_j\geq10\) 或者當
我們認為自變量之間存在嚴重的多重共線性。
(2) 特征根與條件數診斷法
這種方法從多重共線性等價於 \(X'X\) 至少有一個非常小的特征根的角度出發。為消除量綱的影響,我們假設自變量與因變量的觀測值均已標准化。此時可以認為線性回歸模型沒有截距項,且設計矩陣 \(X\) 是 \(n\times p\) 的矩陣,\(X'X\) 是 \(p\) 個自變量的樣本相關系數矩陣。
特征根診斷法:如果 \(X'X\) 有 \(m\) 個特征根近似為 \(0\) ,那么 \(X\) 就有 \(m\) 個多重共線性關系,並且這 \(m\) 個多重共線性關系的系數向量就是這 \(m\) 個接近於 \(0\) 的特征根所對應的標准正交化特征向量。
條件數診斷法:假設 \(X'X\) 的 \(p\) 個特征根分別為 \(\lambda_1,\lambda_2,\cdots,\lambda_p\) ,其中最大特征根為 \(\lambda_{\max}\) ,最小特征根為 \(\lambda_{\min}\) ,定義特征根 \(\lambda_j\) 的條件數為
我們可以用最大條件數來度量矩陣 \(X'X\) 的特征根的散布程度,即定義
它可以用來近似衡量最小特征根接近 \(0\) 的程度,因此可以用來判斷是否具有多重共線性,以及度量多重共線性的嚴重程度。條件數判斷准則為
- 若 \(0<\kappa<100\) ,則認為不存在多重共線性;
- 若 \(100<\kappa<1000\) ,則認為存在較強的多重共線性;
- 若 \(\kappa>1000\) ,則認為存在嚴重的多重共線性。
消除多重共線性的方法主要包括兩個,一是通過增加樣本容量,以消除或緩解自變量之間的線性相關性;二是犧牲最小二乘估計的無偏性,尋找能夠有效降低均方誤差的有偏估計。