0x00 概述
在進行線性回歸分析時,容易出現自變量(解釋變量)之間彼此相關的現象,我們稱這種現象為多重共線性。
適度的多重共線性不成問題,但當出現嚴重共線性問題時,會導致分析結果不穩定,出現回歸系數的符號與實際情況完全相反的情況。
本應該顯著的自變量不顯著,本不顯著的自變量卻呈現出顯著性,這種情況下就需要消除多重共線性的影響。
0x01 共線性出現的原因
多重共線性問題就是指一個解釋變量的變化引起另一個解釋變量地變化。
原本自變量應該是各自獨立的,根據回歸分析結果,能得知哪些因素對因變量Y有顯著影響,哪些沒有影響。
如果各個自變量x之間有很強的線性關系,就無法固定其他變量,也就找不到x和y之間真實的關系了。
除此以外,多重共線性的原因還可能包括:
- 數據不足。在某些情況下,收集更多數據可以解決共線性問題。
- 錯誤地使用虛擬變量。(比如,同時將男、女兩個虛擬變量都放入模型,此時必定出現共線性,稱為完全共線性)
0x02 共線性的判別指標
有多種方法可以檢測多重共線性,較常使用的是回歸分析中的VIF值,VIF值越大,多重共線性越嚴重。一般認為VIF大於10時(嚴格是5),代表模型存在嚴重的共線性問題。
有時候也會以容差值作為標准,容差值=1/VIF,所以容差值大於0.1則說明沒有共線性(嚴格是大於0.2),VIF和容差值有邏輯對應關系,兩個指標任選其一即可。
除此之外,直接對自變量進行相關分析,查看相關系數和顯著性也是一種判斷方法。如果一個自變量和其他自變量之間的相關系數顯著,則代表可能存在多重共線性問題。
0x03 多重共線性處理方法
多重共線性是普遍存在的,通常情況下,如果共線性情況不嚴重(VIF<5),不需要做特別的處理。如存在嚴重的多重共線性問題,可以考慮使用以下幾種方法處理:
3.1 手動移除出共線性的變量
先做下相關分析,如果發現某兩個自變量X(解釋變量)的相關系數值大於0.7,則移除掉一個自變量(解釋變量),然后再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變量從模型中剔除,這樣就要考慮使用其他方法。
3.2 逐步回歸法
讓系統自動進行自變量的選擇剔除,使用逐步回歸將共線性的自變量自動剔除出去。此種解決辦法有個問題是,可能算法會剔除掉本不想剔除的自變量,如果有此類情況產生,此時最好是使用嶺回歸進行分析。
3.3 增加樣本容量
增加樣本容量是解釋共線性問題的一種辦法,但在實際操作中可能並不太適合,原因是樣本量的收集需要成本時間等。
3.4 嶺回歸
上述第1和第2種解決辦法在實際研究中使用較多,但問題在於,如果實際研究中並不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時可能只有嶺回歸最為適合了。
** 嶺回歸是當前解決共線性問題最有效的解釋辦法。
0x04 其他說明
多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施,
如果VIF值大於10說明共線性很嚴重,這種情況需要處理,
如果VIF值在5以下不需要處理,
如果VIF介於5~10之間視情況而定。
如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果。
0x05 轉載