GMM和工具變量在面板數據中的運用


一、解釋變量內生性檢驗

首先檢驗解釋變量內生性(解釋變量內生性的Hausman 檢驗:使用工具變量法的前提是存在內生解釋變量。Hausman 檢驗的原假設為:所有解釋變量均為外生變量,如果拒絕,則認為存在內生解釋變量,要用IV;反之,如果接受,則認為不存在內生解釋變量,應該使用OLS。

reg ldi lofdi
estimates store ols
xtivreg ldi (lofdi=l.lofdi ldep lexr)
estimates store iv
hausman iv ols

(在面板數據中使用工具變量,Stata提供了如下命令來執行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (選擇項可以為fe,re等,表示固定效應、隨機效應等。詳見help xtivreg)

如果存在內生解釋變量,則應該選用工具變量,工具變量個數不少於方程中內生解釋變量的個數。“恰好識別”時用2SLS。2SLS的實質是把內生解釋變量分成兩部分,即由工具變量所造成的外生的變動部分,以及與擾動項相關的其他部分;然后,把被解釋變量對中的這個外生部分進行回歸,從而滿足OLS前定變量的要求而得到一致估計量。

二、異方差與自相關檢驗

在球型擾動項的假定下,2SLS是最有效的。但如果擾動項存在異方差或自相關,面板異方差檢驗:

xtgls enc invs exp imp esc mrl,igls panel(het)
estimates store hetero
xtgls enc invs exp imp esc mrl,igls
estimates store homo
local df = e(N_g) - 1
lrtest hetero homo, df(`df')
面板自相關:xtserial enc invs exp imp esc mrl

則存在一種更有效的方法,即GMM。從某種意義上,GMM之於2SLS正如GLS之於OLS。好識別的情況下,GMM還原為普通的工具變量法;過度識別時傳統的矩估計法行不通,只有這時才有必要使用GMM,過度識別檢驗(Overidentification Test或J Test):estat overid

三、工具變量效果驗證

工具變量:工具變量要求與內生解釋變量相關,但又不能與被解釋變量的擾動項相關。由於這兩個要求常常是矛盾的,故在實踐上尋找合適的工具變量常常很困難,需要相當的想象力與創作性。常用滯后變量。

需要做的檢驗:檢驗工具變量的有效性。

(1) 檢驗工具變量與解釋變量的相關性
如果工具變量z與內生解釋變量完全不相關,則無法使用工具變量法;如果與僅僅微弱地相關,這種工具變量被稱為“弱工具變量”(weak instruments)后果就象樣本容量過小。

檢驗弱工具變量的一個經驗規則是,如果在第一階段回歸中,F統計量大於10,則可不必擔心弱工具變量問題。Stata命令:estat first(顯示第一個階段回歸中的統計量)

(2) 檢驗工具變量的外生性(接受原假設好)
在恰好識別的情況下,無法檢驗工具變量是否與擾動項相關。在過度識別(工具變量個數>內生變量個數)的情況下,則可進行過度識別檢驗(Overidentification Test),檢驗原假設所有工具變量都是外生的。如果拒絕該原假設,則認為至少某個變量不是外生的,即與擾動項相關。
Sargan統計量,Stata命令:estat overid

四、GMM過程
在Stata輸入以下命令,就可以進行對面板數據的GMM估計。

. ssc install ivreg2 (安裝程序ivreg2 )
. ssc install ranktest (安裝另外一個在運行ivreg2 時需要用到的輔助程序ranktest)
. use "traffic.dta"(打開面板數據)
. xtset panelvar timevar (設置面板變量及時間變量)
. ivreg2 y x1 (x2=z1 z2),gmm2s (進行面板GMM估計,其中2s指的是2-step GMM)

工具變量和GMM在Panel data中的運用

第一節 關於面板數據PANEL DATA

1、面板數據回歸為什么好?

一般而言,面板數據模型的誤差項由兩部分組成,一部分是與個體觀察單位有關的,它概括了所有影響被解釋變量,但不隨時間變化的因素,因此,面板數據模型也常常被稱為非觀測效應模型;另外一部分概括了因截面因時間而變化的不可觀測因素,通常被成為特異性誤差或特異擾動項(事實上這第二部分誤差還可分成兩部分,一部分是不因截面變化但隨時間變化的非觀測因素對應的誤差項Vt,這一部分一般大家的處理辦法是通過在模型中引入時間虛擬變量來加以剝離和控制,另一部分才是因截面因時間而變化的不可觀測因素。不過一般計量經濟學的面板數據分析中都主要討論兩部分,在更高級一點的統計學或計量經濟學中會討論誤差分量模型,它一般討論三部分誤差)。

非觀測效應模型一般根據對時不變非觀測效應的不同假設可分為固定效應模型和隨機效應模型。傳統上,大家都習慣這樣分類:如果把非觀測效應看做是各個截面或個體特有的可估計參數,並且不隨時間而變化,則模型為固定效應模型;如果把非觀測效應看作隨機變量,並且符合一個特定的分布,則模型為隨機效應模型。

不過,上述定義不是十分嚴謹,而且一個非常容易讓人產生誤解的地方是似乎固定效應模型中的非觀測效應是隨時間不變的,是固定的,而隨機效應模型中的非觀測效應則不是固定的,而是隨時間變化的。

一個邏輯上比較一致和嚴謹,並且越來越為大家所接受的假設是(參見Wooldridge的教材和Mundlak1978年的論文),不論固定效應還是隨機效應都是隨機的,都是概括了那些沒有觀測到的,不隨時間而變化的,但影響被解釋變量的因素(尤其當截面個體比較大的時候,這種假設是比較合理的)。非觀測效應究竟應假設為固定效應還是隨機效應,關鍵看這部分不隨時間變化的非觀測效應對應的因素是否與模型中控制的觀測到的解釋變量相關,如果這個效應與可觀測的解釋變量不相關,則這個效應成為隨機效應。這也正是HAUSMAN設定檢驗所需要檢驗的假說。

非觀測效應模型因為對非觀測效應假設的不同,因為使用面板數據信息的不同,可以用不同方法來估計並且得到不同的估計量,一般有四個:

(1)組內估計量(WITHIN ESTIMATOR)(FE或FD: First Difference)
(2)組間估計量(BETWEEN ESTIMATOR)
(3)混合OLS估計量(POOLED OLS ESTIMATOR)
(4)隨機效應估計量(RE,GLS或FGLS估計量)

這四個估計量因為假設和使用信息的不同而不同,各有優劣勢,相互之間也有密切關系。3和4分別是1和2的加權平均;4在特定的假設分別可以轉化成1和3;如果HAUSMAN檢驗表明4和1沒有區別的時候意味着1和2沒有區別。

RE假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的,RE在做估計的時候,是用這兩個部分的方差計算出一個指數λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。

極端地,當λ為0時,非觀測效應是一個常數,並且所有個體都一樣,就等價於Pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,於是就等價於FE。但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到consistent的結果。

PANEL數據的好處之一是,如果未觀察到的是固定效應,那么在做DEMEAN時,未觀察因素就被差分掉了。這樣就可以減少由於未觀察的因素可能與解釋變量相關而導致的內生性問題。

2、那么PANEL的FE或RE分析就避免了內生性問題嗎?
只能說好一些,如果內生的問題只是由於與單位有關的並不隨時間變化的遺漏變量與解釋變量有關造成的,這時,數據的差分就解決了問題,但是,別忘記還有一部分誤差,如果這部分誤差里包含的因素也可能影響解釋變量,那么,差分只能解決前面講的問題,由隨機項里包括的因素與解釋變量之間的關系導致的內生性問題還可能存在。

3、怎么辦?
找IV解決。類似於在OLS基礎上找IV,但對PANEL的工具應該具有PANEL結構,除非你基礎的估計沒有使用PANEL的方法,比如說對數據用了pooled OLS方法,但能夠用pooled OLS方法分析PANEL DATA的條件是很嚴格的。

第二節 關於工具變量選擇

1, IV應該盡量是外生的(如歷史/自然/氣候/地理之類),它應該在理論上對被解釋變量(以下稱Y)沒有直接影響,但應該通過影響被工具的變量(以下稱X)而間接影響被解釋變量Y。

2, 如果上述理論邏輯通的話,將內生變量X作為解釋變量,IV和其他變量(X2)作為解釋變量,看IV是否顯著,它應該顯著。如果選了多個IV,就用F TEST看其是否都不顯著。同時,如果在多個IV中,有一個是確定為外生的,那么,可以用Sargan test of overidentifying restrictions來檢驗其他的IV是不是確實是外生的。

3, 如果上述都沒有問題,做一下IV回歸。完成后,用HAUSMAN檢驗,這個檢驗的原假說是IV回歸與原回歸(不用IV的回歸)的變量的系數並沒有顯著的不同。看一下P值,如果P小於比如說0.1,或者0.05,那么,說明IV回歸與原來的回歸顯著不同,原來的方程的確有內生性問題導致的估計偏誤。反之,如果P很高,超過0.1,或0.05,那說明IV回歸與原來的回歸沒有顯著不同,無法拒絕原來的回歸沒有顯著的內生問題導致的估計偏誤的原假設。

4, 如果選擇的IV本身就影響Y,那它就不能被作為IV。例如,Y在左邊,右邊是X(被工具的),X2,IV。當IV被放在方程右邊時,它最好是不顯著影響Y的。在Acemoglu(2001)里,他就檢驗了他們的IV是否直接影響被解釋變量,結果說明不直接影響,於是這個IV是好的。當然,一個好的IV在前面的回歸中也可能是顯著的(不過一般如果理論和邏輯上IV是通過被工具的內生解釋變量間接影響被解釋變量的話,一般來說應該是被工具的內生解釋變量使得IV不顯著,或者由於兩者相關性很高,兩者都不顯著),但判斷的標准還只是t值。這個變量顯著完全有可能是因為它影響了其他顯著的變量(比如被工具的變量),如果是這樣,當包括了IV在原方程中以后,其他變量(特別需要注意的是被工具的變量X)的系數可能發生明顯變化。

第三節 關於HAUSMAN TSET(以下簡稱HT)的若干細節問題

具體參見Stata corporation, 2001, STATA 7 Reference H-P, Stata Press
1,含義:“The null hypothesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two models display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based.”參見手冊Stata corporation, 2001, STATA 7 Reference H-P, Stata Press。

該方法是Hausman (1978)的程序化。所以,Hausman Test的命令(hausman)假設使用者知道需要比較的兩個方程中哪一個是“無論原假說成立與否都是consistent”,哪一個“在原假說下不僅efficient而且consistent,但若原假說不成立,則inconsistent”,然后,在STATA下,步驟是:

(1) obtain an estimator that is consistent whether or not the hypothesis is true;
(2) store the estimation results under a name-consistent using estimates store;
(3) obtain an estimator that is efficient (and consistent) under the hypothesis that you are testing, but inconsistent otherwise;
(4) store the estimation results under a name-efficient using estimates store;
(5) use hausman to perform the test
hausman name-consistent name-efficient [, options]

舉例:
(1)在關於是FE還是RE的檢驗中,原假說是非觀測效應與解釋變量不相關,備擇假說是兩者相關。FE是無論原假說成立與否都是consistent,而RE在原假說下是consistent,並且Asymptotically efficient(樣本越大越有效),但如果原假說被拒絕,則RE不是consistent的 (Hausman, 1978)。

所以做法應該是(STATA的命令):

sort code year (排序)
tis year (時間變量是year)
iis code (表示單位的是code)
xtreg y x x2, fe(假設其中x是需要被工具的變量)
est store fixed (在STATA里命令有變化,不再是HAUSMAN,SAVE了,這里的fixed實際上就是個變量名,用什么都行)
xtreg y x x2, re
hausman fixed

 

(2)比較OLS(或FE)和IV(或IVFE)
先做IV,因為,它無論如何都是consistent的,但OLS只有在原假設成立,即OLS結果與IV結果相同,內生性問題沒有時,才是consistent的。所以,應該先做IV。

在老版本的STATA里,如果不加特殊說明,STATA就會默認為先寫的回歸命令得到的是總是一致的估計結果,后寫的得到的是備擇假設下不一致的估計結果。現在HAUSMAN命令

1 Refer to the appendix for the definition of unbiased, consistent and efficient.
規范了,而且擴展了。先跑哪個不重要,關鍵在於寫最后HAUSMAN命令時候的順序,而且如果最近跑的一個沒有用EST存名字的話,要用“.”代替。

2.注意:
(1)對以上檢驗的理解的另一種方式是,我們先做一個假設條件要求更松的估計,然后再做一個假設條件更嚴格的。相比之下,IV(IVFE)比OLS(FE)要求更松。容易搞混的是FE比RE假設條件更松。RE假設未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關的,二是完全隨機的,RE在做估計的時候,是用這兩個部分的方差計算出一個指數λ,來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去λ乘以y或x的均值,然后用GLS估計。

當λ為0時,就等價於pooled OLS,當λ為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關的,於是就等價於FE。但FE不需要假定未觀察因素與解釋變量是正交的,在做FE時,固定效應都被差分掉了,所以也可得到consistent的結果。當我們先做假設更嚴格的估計時,HT與一般檢驗一樣,檢驗值大,P小,則原假說拒絕,應該接受假設更松的。在FE與RE的比較里,卡方大,接受FE。在OLS(FE)與IV(或IVFE)的比較里,當卡方值大時,P小時,拒絕原假說,IV結果和OLS(或FE)有不同,於是接受IV結果。

(2)從以上討論可以看出,我們需要事先知道HT時兩個方程的順序和性質。在STATA7以下,當使用hausman命令時,它默認的順利(缺省參數more)就是上面的順序。如果你做的順序相反,就應該加上參數,命令為hausman, less,如果沒有寫less,那么,STATA是不知道誰更efficient的,這時,你本來應該得到一個正的結果,就完全可能因為順序錯了,又忘記了參數less而得到一個相反的負數結果。

在STATA里命令變化,可以變順序,但要使用者注意正確使用參數:
The order of computing the two estimators may be reversed. You have to be careful though to specify to hausman the models in the order "always consistent" first and "efficient under H0" second. It is possible to skip storing the second model and refer to the last estimation results by a period (.).

(3)在其他可比較的情況下,順序並不重要(如果沒有誰更有效的差別)
hausman may be used in any context. The order in which you specify the regressors in each model does not matter, but it is your responsibility to assure that the estimators and models are comparable, and satisfy the theoretical conditions (see (1) and (3) above).

(4)當HT出現負值時
先看一下是不是方程順序錯了。如果沒有錯,那么在小樣本數據下也並不是不可能得到負值。當HAUSMAN檢驗的X2值是負的時候,意思是強烈地表明兩個被比較的回歸結果系數相同(或者說無顯著差異)的原假說不能被拒絕,尤其是小樣本中很可能出現。這是STATA7的使用手冊上的一個例子說的。但在STATA里,又說,出現負值這種情況時,If this is the case, the Hausman test is undefined. Unfortunately, this is not a rare event. Stata supports a generalized Hausman test that overcomes both of these problems. See suest for details.可以通過help suest了解。

3.STATA命令

(1)比較FE和RE

sort code year (排序)
tis year (時間變量是year)
iis code (表示單位的是code)
xtreg y x x2, fe(假設其中x是需要被工具的變量)
est store fixed (在STATA里命令有變化,不再是HAUSMAN,SAVE了,這里的fixed實際上就是個變量名,用什么都行)

xtreg y x x2, re
hausman fixed

(2)比較IVFE和IVRE

xtivreg y (x=iv) x2, fe
est store f1
xtivreg y (x=iv) x2, re
hausman f1

一般來說用不着這個比較,因為在這之前,你已經知道FE和RE誰好了,就將好的結果與它的IV結果比就行了。

(3)比較IVFE和FE

xtivreg y (x=iv) x2, fe
est store f2
xtreg y x x2, fe
hausman f2

再重復一遍,如果結果是P小,卡方大才說明IV回歸是必要的,原來是有內生問題

第四節 舉例

Acemoglu等人(2001)的文章是非常有代表性的使用工具變量的論文。他們試圖驗證制度對人均收入有影響,顯然,直接做回歸的話,制度就是內生的,因為好的制度可能在人均收入高的地方產生。他們找的工具變量是殖民地時代一個國家的死亡率,死亡率高歐洲人就不會定居下來,於是就會在當時建議掠奪性的制度,反之就會建立好的制度,而那時的制度對現在仍然有影響。

特別值得注意的是論文的6.3部分對於工具變量的有效性的檢驗。首先,他們用其他可行的變量作為替代來反復做IV回歸,發現得到的結果與用死亡率作IV得到的結果基本相同。(這當然是不錯的結果,但是,我認為這不是必要的,因為你並不一定能夠找到其他的IV。)

然后,他們將死亡率本身作為外生變量放在原回歸里,發現它不顯著地影響被解釋變量,這說明它並不直接影響被解釋變量。第三,他們把只用死亡率的IV結果和同時用死亡率和其他IV的結果進行卡方檢驗,發現它們沒有顯著不同,再次說明死亡率沒有直接影響,也不是通過影響制度以外的其他變量影響被解釋變量的。我認為這一步也不是必要的,因為如果你沒有其他IV,這一步也就沒有辦法做了。

 

Question:

I am using Stata 16.0 and the command - ivregress-. The sintax is the following:

> ivregress 2sls dep (endo endoXexo = instrument1 instrument2 
> instrument1#exo
> instrument2#exo) exo exo1 exo2 exo3, first

 

where dep is the dependent variable, endo is the endogenous regressor, 

exo is an exogenous regressor that I want to interact with the 

endogenous one, and exo1, exo2, exo3 are other exogenous regressors.

After running this model I type -estat overid- and I obtain this result:

Tests of overidentifying restrictions:

Sargan (score) chi2(2) =  .311939  (p = 0.8556)

Basmann chi2(2)        =  .310601  (p = 0.8562)

 

This should mean that my instruments are not correlated with the error 

of the main regression and therefore they are valid. Now, I want to 

add an other exogenous regressor in the main regression, and for this reason I write:

>ivregress 2sls dep (endo endoX exo = instrument1 instrument2 

>instrument1#exo

>instrument2#exo) exo exo1 exo2 exo3 exo4, first

where exo4 is the new variable that I add to the model. The effect of this new factor on the dependent variable is statistically significant, and it also considerably  reduces the effect of endo. However, when I type again - estat overid-  the result is the following:

Tests of overidentifying restrictions:

Sargan (score) chi2(2) =  14.1205  (p = 0.0009)
Basmann chi2(2)        =  14.0913  (p = 0.0009)

This means that my instruments are not valid anymore. How it can be possible?

The error term of the first model should incorporate also the effect of exo4.As far as I am aware, if my instruments are not correlated to it (the error term), they can not be correlated with the error term of the second model. I don't know how to interpret these results.....

Answer:

The overidentification test only tests whether the additional instruments are valid, and is only valid when there are more instruments than endogenous variables (overidentified case). So as you both mention it is not a test of exogeneity of the instruments, but rather that the additional restrictions we are imposing by having additional instruments are valid.

Having said that, the case that Roberto presents has the same overidentification in both estimations, the only difference is that he augments the specification by adding an additional exogenous variable in his second estimation. Since the instruments (exogenous variables not included as explanatory variables in the second stage) are the same in the first and second specification, that the overidentification test passes in the first and fails to pass in the second strongly suggests that the new variable is endogenous, and thus the orthogonality condition is being violated, because in the first specification the orthogonality condition is being met.








免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM