多重共線性
通過前面的三篇筆記,我們基本上搭建了一個計量經濟學的分析框架,即模型設定、基本假定、參數估計、統計性質、假設檢驗。其中,基本假定的滿足是保證一切計量分析合理性的前提條件。在這一系列的筆記中,我們都主要參考伍德里奇關於基本假定的表述,可以參考筆記《計量經濟學導論02:多元回歸模型》中的 MLR.1 至 MLR.6 。從本節開始,我們開始討論違背基本假定的問題,即如果我們的樣本數據沒有我們認為的那么理想,我們又該作何處理。
多重共線性的含義
我們在經典假定 MLR.3 中曾提出,多元回歸模型應滿足不存在完全共線性的假設。在實際應用中,共線性問題是多元回歸模型可能存在的一類現象,分為完全共線性和多重共線性兩種。完全共線性指的指多元回歸模型中的一些或全部解釋變量之間存在一種確定的線性關系,而多重共線性指的是一些或全部解釋變量之間存在一種不完全但高度相關的線性關系。
注意一點,如果模型中出現了完全共線性,則違背了 MLR.3 的假定;如果模型中出現了多重共線性,則不違背任何一條經典假定,只是估計效果沒有那么好而已。認清這一點非常重要,對我們分析多重共線性下參數估計的統計性質有很大的幫助。下面我們給出嚴格的定義。
完全共線性
對於解釋變量 \(X_1,X_2,\cdots,X_k\) ,如果存在不全為 \(0\) 的常數 \(\lambda_1,\lambda_2,\cdots,\lambda_k\),使得
在矩陣形式中,有 \({\rm r}(\boldsymbol{X})<k+1\) ,這表明數據矩陣 \(\boldsymbol{X}\) 中至少有一個列向量可以用其余的列向量線性表示,此時解釋變量 \(X_1,X_2,\cdots,X_k\) 中存在完全共線性。
多重共線性
對於解釋變量 \(X_1,X_2,\cdots,X_k\) ,如果存在不全為 \(0\) 的常數 \(\lambda_1,\lambda_2,\cdots,\lambda_k\),使得
其中,\(v_i\) 是隨機誤差項,這表明中解釋變量 \(X_1,X_2,\cdots,X_k\) 只存在一種近似的線性關系,稱為多重共線性。
我們可以用下面的數據舉個例子:
\(X_1\) | \(X_2\) | \(X_3\) |
---|---|---|
\(10\) | \(50\) | \(52\) |
\(15\) | \(75\) | \(75\) |
\(18\) | \(90\) | \(97\) |
\(24\) | \(120\) | \(129\) |
\(30\) | \(150\) | \(152\) |
\(38\) | \(190\) | \(187\) |
- \(X_2\) 與 \(X_1\) 之間是完全線性關系:\(X_2=5X_1\) ;
- \(X_3\) 與 \(X_1\) 之間是不完全線性關系:\(X_3=5X_1+v\) ,其中 \(v=2,0,7,9,2,-3\) 。
多重共線性的產生原因
一般地,產生多重共線性的主要原因有以下幾個方面:
-
模型設定錯誤:這個不需要解釋,模型設定錯誤的時候什么情況都有可能發生,一定要克服。
-
數據采集方法不當:如果在總體中的一個較小的范圍內抽樣,\(X\) 沒有顯著的波動會導致 \(X\) 和截距項之間產生多重共線性的現象。
-
經濟變量之間具有共同變化趨勢:如時間序列數據中,GDP、就業人口、消費等數據的變化常常會具有相同的時間趨勢。
-
模型中包含滯后變量:在經濟計量模型中,往往需要引入滯后經濟變量來反映真實的經濟關系。例如,消費 \(=\) \(f(\)當期收入\(,\) 前期收入\()\) ,顯然,這兩期收入間有較強的線性相關性。
-
多項式的引入:如模型中包括 \(X,\,X^2,\,X^3\) 作為解釋變量,當 \(X\) 變化不大時會呈現出嚴重的多重共線性。
我們可以做一個實驗看看 \(X^2,\,X^3\) 和 \(X\) 之間可以帶來什么程度的線性相關性。注意,這里的線性相關指的是統計意義上,可以利用協方差和相關系數衡量的相關性,而非線性代數中涉及的線性相關和線性無關的概念。如果利用后者的概念來理解,\(X^2,\,X^3\) 和 \(X\) 之間確實是線性無關的。
我們知道一元回歸模型中,可決系數 \(R^2\) 和樣本相關系數的平方 \(r^2\) 相等,因此我們利用 Stata 軟件分別做 \(X^2,\,X^3\) 對 \(X\) 的簡單回歸,通過 \(R^2\) 的值來檢驗其相關性。
在 Stata 中輸入以上數據,並利用 reg
命令進行回歸。可以看出 \(X^2\) 和 \(X\) 之間的 \(R^2\) 高達 \(0.9453\) ,\(X^3\) 和 \(X\) 之間的 \(R^2\) 也有 \(0.8606\) ,在統計意義上體現出很強的相關性。
多重共線性的后果
在這里我們先回顧兩個公式:
當模型中出現完全共線性時, \({\rm r}(\boldsymbol{X})<k+1\) ,因此 \({\rm det}(\boldsymbol{X}^{\rm T}\boldsymbol{X})=0\) ,即矩陣 \(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 是奇異矩陣,此時不存在矩陣的逆 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) ,因此不存在唯一確定的解 \(\hat{\boldsymbol{\beta}}\) 。另一方面,假設 \(X_j\) 可以被其他的解釋變量線性表示,此時基於排除其他變量影響的方法,用 \(X_j\) 對其他解釋變量做回歸得到的 \(R_j^2=1\) ,導致 \(X_j\) 的參數估計值的方差 \({\rm Var}(\hat\beta_j)=\infty\) 。
概括起來,完全共線性的后果主要有兩個方面:
- 參數估計值不唯一;
- 參數估計值的方差無限大。
當模型中出現多重共線性時,OLS 估計可以正常計算。而且由於多重共線性並沒有違背任何一條經典假設,特別是高斯-馬爾科夫假設,根據高斯-馬爾科夫定理,多重共線性下的 OLS 估計仍然是最佳線性無偏估計量 BLUE 。但是多重共線性會造成估計的結果不夠精確。仍然以 \(X_j\) 為例,當出現多重共線性時,\(R_j^2\) 會顯著增大,導致參數估計的方差增大。我們可以引入方差膨脹因子 \({\rm VIF}\) 來衡量多重共線性導致的方差膨脹的倍數:
在這種情況下,多重共線性的后果主要有以下幾個方面:
- 參數的估計值可計算,但不穩定;
- 參數估計量的方差增大;
- 對參數區間估計時,置信區間趨於變大,假設檢驗容易接受參數為 \(0\) 的假設;
- 可能造成 \(R^2\) 較高,但對各個參數單獨的 \(t\) 檢驗卻可能不顯著,甚至可能使估計的回歸系數符號相反,得出完全錯誤的結論。
多重共線性的檢驗方法
經驗觀察法
直觀來看,出現多重共線性時常常伴隨着較大的 \(R^2\) 和 \(F\) 值,但只有幾個參數的 \(t\) 檢驗顯著。
簡單相關系數法
簡單相關系數檢驗法是利用解釋變量之間的線性相關程度去判斷是否存在嚴重多重共線性的一種簡便方法。一般而言,如果每兩個解釋變量的簡單相關系數比較高,例如 \(|r|>0.8\) ,則可認為存在着較嚴重的多重共線性。
但我們需要注意的是,較高的簡單相關系數只是多重共線性存在的充分條件,而不是必要條件。特別是在多於兩個解釋變量的回歸模型中,有時較低的相關系數也可能存在多重共線性。因此並不能簡單地依據相關系數進行多重共線性的准確判斷。
輔助回歸法
以某一解釋變量 \(X_j\) 為被解釋變量,以其余解釋變量作為新的解釋變量,進行一個新的回歸分析。
得出回歸的擬合優度 \(R^2_j\) (稱為判定系數)和總顯著性檢驗的 \(F\) 統計量 \(F_j\) 的值。
若 \(F\) 檢驗顯著,\(F_j\) 較大,可以認為存在明顯的多重共線性問題。
若對於所有的 \(j\) 都有 \(R^2_j>R^2\),可以認為存在明顯的多重共線性問題。
方差膨脹因子法
方差膨脹因子的定義同上,
方差膨脹因子越大,表明解釋變量之間的多重共性越嚴重。反過來,方差膨脹因子越接近於 \(1\) ,多重共線性越弱。若 \({\rm VIF}_j>10\) 且輔助回歸 \(R^2_j>0.9\),可以認為存在明顯的多重共線性問題,且這種多重共線性可能會過度地影響最小二乘估計。
多重共線性的修正措施
處理多重共線性的常用措施如下:
-
利用非樣本的外部或先驗信息作為約束條件:通過經濟理論分析得到某些參數之間的關系,將這種關系作為約束條件,將此約束條件和樣本信息結合起來進行受約束的最小二乘估計。
-
橫截面與時間序列數據並用。
-
剔除高度共線性的變量(如逐步回歸法),但可能引起模型的設定誤差。
-
數據轉換:
- 時間序列:做一階差分;
- 計算相對指標;
- 將名義數據轉換為實際數據;
- 將小類指標合並成大類指標。
-
選擇有偏估計量(如嶺回歸,Lasso回歸)。
-
不做任何處理,因為多重共線性下的 OLS 估計量仍然滿足 BLUE 性質。
我們主要對逐步回歸法和嶺回歸法做詳細解釋。
逐步回歸法(Stepwise)
逐步回歸法的步驟如下:
- 用被解釋變量對每一個所考慮的解釋變量做簡單回歸。
- 以對被解釋變量貢獻最大的解釋變量所對應的回歸方程為基礎,按對被解釋變量貢獻大小的順序逐個引入其余的解釋變量。
逐步回歸法中解釋變量取舍的檢驗判斷方式:
- 若新變量的引入改進了 \(R^2\) 和 \(F\) 檢驗,且回歸參數的 \(t\) 檢驗在統計上也是顯著的,則在模型中保留該變量。
- 若新變量的引入未能改進 \(R^2\) 和 \(F\) 檢驗,且對其他回歸參數估計值的 \(t\) 檢驗也沒有帶來什么影響,則認為該變量是多余變量。
- 若新變量的引入未能改進 \(R^2\) 和 \(F\) 檢驗,且顯著地影響了其他回歸參數估計值的數值或符號,同時本身的回歸參數也通不過 \(t\) 檢驗,說明出現了嚴重的多重共線性。
嶺回歸法(Ridge Regression)
嶺回歸分析實際上是一種改良的最小二乘法,是一種專門用於共線性數據分析的有偏估計回歸方法,其目的是以引入偏誤為代價減小參數估計量的方差。
當解釋變量之間存在多重共線性時,\(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 是奇異的,也就是說它的行列式的值接近於 \(0\) ,或者說該矩陣有接近於 \(0\) 的特征根,此時 OLS 估計近乎失效。嶺回歸方法就是用 \((\boldsymbol{X}^{\rm T}\boldsymbol{X}+r\boldsymbol{D})\) 代替正規方程中的 \(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 。其中 \(r\) 為大於 \(0\) 的常數,稱為嶺回歸系數,矩陣 \(\boldsymbol{D}\) 一般選擇為主對角陣,具體計算方法如下:
此時嶺回歸的參數估計式為:
關於嶺回歸系數的選擇:由上式可知 \(r\) 越大,\(\tilde{\boldsymbol\beta}(r)\) 對 \(\boldsymbol\beta\) 的偏差越大,但方差越小。因此我們需要選擇一個懲罰適中的方案。理論選擇最小化均方誤差的 \(r\) :
其中,均方誤差的定義為:
實際操作時可以利用統計軟件對嶺回歸系數 \(r\) 進行搜索,直到估計的系數趨於穩定為止。