轉自:https://my.oschina.net/u/4606941/blog/4477407
作為OLS回歸不符合假定的問題,還包括解釋變量與隨機擾動項不相關。如果出現了違反該假設(即解釋變量和隨機擾動項相關了)的問題,就需要找一個和解釋變量高度相關的、同時和隨機擾動項不相關的變量,作為工具變量進行回歸。
傳統來講,工具變量有兩個要求:與內生變量高度相關、與誤差項不相關,這兩個要求缺一不可。前者的違背會導致弱工具,這其中一個更有意思的問題是有很多的弱工具(many weak instruments)的情況。而后者的違背會使得工具變的無效(Invalid)。
工具變量通常采用二階段最小二乘法(2SLS)進行回歸,當隨機擾動項存在異方差或自相關的問題,2SLS就不是有效率的,就需要用GMM等方法進行估計,除此之外還需要對工具變量的弱工具性和內生性進行檢驗。
sysuse auto
構造工具變量結構方程
初始回歸方程:mpg = β0+β1turn+β2gear_ratio+μ
內生變量:turn=z0+z1weight+z2length+z3headroom+ε
回歸方程中內生變量為turn,工具變量為weight、length、headroom。
2SLS估計
1.使用 ivreg2
進行2SLS估計
ivreg2 mpg gear_ratio (turn=weight length headroom)
這里運行時出現錯誤提示:
原因:括號前面要有個空格。
結果顯示:
turn變量的估計系數是-1.246,z檢驗值為-6.33,p值0.000,小於0.05,說明turn系數顯著,且與mpg呈現負相關。
Underidentification test,方程的不可識別檢驗詳解,得到LM統計值為26.822,p值=0.000,小於0.05,強烈拒絕“不可識別”的原假設。
Weak identification test弱工具變量檢驗詳解,得到得到Wald-F統計值為30.303,KP Wald-F統計值為42.063,大於所有臨界值,說明拒絕“弱工具變量”的原假設,即方程不存在弱工具變量。
Hansen J statistic的過度識別檢驗詳解,得到卡方統計值為0.548,p值為0.7601,大於0.05,說明接受“過度擬合”的原假設;【Hansen J統計量,加選項robust時匯報Hansen J統計量,不加robust選項時匯報Sargan統計量。也就是說iid時用Sargan統計量,非iid時用Hansen J統計量。】
如果是恰好識別,是不用做過度識別檢驗的。如果工具變量個數多於內生變量個數,且確定其中一個工具變量外生,就可以進行過度識別檢驗。過度識別檢驗p值大於0.1,則不拒絕 所有工具變量均外生 的原假設。
在計量經濟學方法研究以及應用中,一般需要恰好識別或者過度識別,雖然過度識別的情況比較多一些,另外這是進行工具變量法的必要條件;若是出現過度識別,則需要進行過度識別檢驗,也成為薩爾干巴斯曼檢驗,寫作Sargan-Basman檢驗。
該假設的條件為所有有效的工具變量的個數與內生解釋變量一樣多,或者說是這個所有的工具變量都是外生的。
過度識別的命令為estat overid
若是Sargan-Basman檢驗的統計量對應的p值大於0.05,則認為所有的工具變量都是外生的,也就是有效的,反之則是無效的。(原假設是所有工具變量是外生的,若是p值小於0.05,則拒絕原假設)
總結:過度識別檢驗其實一部分是為了檢驗工具變量的外生性,主要體現在檢驗工具變量是否與擾動項的相關性,即與擾動項不相關。
過度內生性檢驗
ivreg2 mpg gear_ratio (turn=weight length headroom)
estimates store iv
regress mpg gear_ratio turn weight length headroom
estimates store ols
hausman iv ols, constant sigmamore
Hausman檢驗得到統計值為-0.97,無法拒絕“所有解釋變量均為外生”的原假設,說明方程存在內生性。
注釋:
用IV做2SLS回歸時,需要對IV進行三個方面的檢驗:
1.不可識別檢驗,也就是 IV的個數是否少於內生解釋變量的個數,使用的統計量是Anderson LM 統計量/Kleibergen-Paap rk LM統計量。這里 p值小於0.01說明在 1%水平上【說明錯誤拒絕的可能性小於1%】顯著拒絕 “工具變量識別不足”的原假設,也就是要求p值不能大於0.1。
加robust是Kleibergen-Paap rk LM統計量,不加robust是Anderson LM 統計量。也就是說在iid(獨立同分布)情況下看Anderson LM 統計量,在非iid情況下看Kleibergen-Paap rk LM統計量。
estat firststage, all forcenonrobust
,匯報第一階段的結果。
(2)最小特征統計量,minimum eigenvalue statistic,這是Stock and Yogo (2005)提出來的,stata會在ivreg2中給出臨界值。Staiger and Stock (1997)建議只要該值大於10就認為不存在弱IV。這個值用於iid的情況。
(3)Cragg-Donald Wald F統計量,由Cragg and Donald (1993)提出,Stock and Yogo (2005)給出其臨界值,Stata在回歸時會給出臨界值。CDW檢驗一般過15%,10%的臨界值就可以,過了5%的臨界值更好。 名義顯著性水平為5%的檢驗,其真實顯著性水平不超過15%。也就是Stock-Yogo weak ID test critical values的15%相當於5%,也就是說要求CDW統計量大於15%的臨界值就行。 如果IV數量小於3則不會給出Stock-Yogo weak ID test critical values: 5%/10%/15%/20% maximal IV relative bias 。如果假設擾動項為iid,則看CDW檢驗統計量。如果不對擾動項作iid的假設,則看KP W rk F統計量。所以加r選項時才有KP W rk F統計量,不加則沒有。不管加不加r選項,CDW統計量總有。通常建議加上r選項。
(4)Kleibergen-Paap Wald rk F統計量,Stock and Yogo (2005)給出其臨界值,Stata在回歸時會給出臨界值。注意與不可識別檢驗的統計量的區別。對於CDW統計量和KP W rk F統計量要從估計偏誤和檢驗水平扭曲兩個方面進行判斷是否存在弱IV問題。
一般情況下這四個值都會看,基本上幾個值都是同向變化的。
3.過度識別檢驗,過度識別的前提是該模型至少是恰好識別的,也就是有效IV至少與內生解釋變量一樣多,**原假設是H0:所有IV都是外生的,拒絕原假設意味着至少有一個IV不是外生的,與擾動項相關**。三個統計量: (1)Sargan統計量。Stata默認給出Sargan統計量。如果內生變量的數目和工具變量的數目完全相同。此時無需執行過度識別檢驗,因為模型是恰足確認的(equation exactly identified)。這里要求p大於0.1。(2)Hansen J統計量,加選項robust時匯報Hansen J統計量,不加robust選項時匯報Sargan統計量。也就是說iid時用Sargan統計量,非iid時用Hansen J統計量。
(3)C統計量,加orthog(varlist),varlist為需要檢驗外生性的變量。與過度識別約束檢驗有關的另一個檢驗是對工具變量子集是否符合外生性假定的檢驗,可通過 difference-in-Sargan 統計量進行; 該統計量由兩個 Sargan( 或 Hansen-J) 之差構成,也稱為 C 統計量。
在xtivreg和xtivreg2后面還可加first和ffirst選項,如果選擇first,窗口中就會直接顯示first-stage的regression output;如果選擇ffirst,則會顯示first-stage中檢測IV的相關性等的test statistics。