轉載自 https://www.jianshu.com/p/e103270ce674?open_source=weibo_search
導言:
如下是連玉君老師上課的板書。你可以看出什么是 「固定效應」,什么是 「雙向固定效應模型」,什么是 「POLS」 v.s. 「FE」 以及二者的差別。
所以,面板數據模型其實沒有你想象的那么復雜!

常見的數據形式有時間序列數據( Time series data ),截面數據( Cross-sectional data )和面板數據( Panel data )。
從維度來看,時間序列數據和截面數據均為一維。面板數據可以看做為時間序列與截面混合數據,因此它是二維數據。數據形式如下:

世界是復雜的,所表現出來的行為特征也是復雜的,我們需要面板數據。
例如,欲研究影響企業利潤的決定因素,我們認為企業規模 (截面維度)和技術進步(時間維度)是兩個重要的因素。截面數據僅能研究企業規模對企業利潤的影響程度,時間序列數據僅能研究技術進步對企業利潤的影響,而面板數據同時考慮了截面和時間兩個維度 (從哪個維度看都好看),可以同時研究企業規模和技術進步對企業利潤的影響。
正因為面板數據所具有的獨特優勢,許多模型從截面數據擴展到面板數據框架下。通過 findit panel data
命令可以發現目前Stata已有許多相關面板數據模型命令,包括(不限於):
xtreg
:普通面板數據模型,包括固定效應與隨機效應
xtabond/xtdpdsys/xtabond2/xtdpdqml/xtlsdvc
:動態面板數據模型
spxtregress/xsmle
: 空間面板數據模型
xthreg
:面板門限模型
xtqreg/qregpd/xtrifreg
: 面板分位數模型
xtunitroot
: 面板單位根檢驗
xtcointtest/ xtpedroni/xtwest
: 面板協整檢驗
sfpanel
: 面板隨機前沿模型
xtpmg/xtmg
:非平穩異質面板模型
本文主要就普通靜態面板數據模型進行介紹,包括模型形式設定、模型分類與選擇及 Stata 程序實現等。
一. 模型形式設定
面板數據模型同時包含了截面和時間兩個維度,設 (
=1,
,
) 表示截面 (個體),
(
) 表示時間,設定如下線性模型:
其中,
-
為
因變量,
-
為
自變量,
-
為模型誤差項,
是待估計參數,表示
對
的邊際影響。
-
表示個體效應,表示那些不隨時間改變的影響因素,如個人的消費習慣、企業文化和經營風格等;
-
表示時間效應,用於控制隨時間改變因素的影響 (時間虛擬變量包括時間趨勢項,時間趨勢主要用於控制技術進步),如廣告的投放 (往往通過電視或廣播,我們可以認為在特定的年份所有個體所接受的廣告投放量相同)。
顯然, 和
在多數情況下都是無法直接觀測或難以量化的,因此也就無法進入模型。在截面分析中往往會引起遺漏變量的問題。
面板數據模型的主要用途之一就在於處理這些不可觀測的個體效應或時間效應。當對所有的 ,
均相等時,模型退化為混合數據模型 ( Pooled OLS ),可直接用
reg y x
命令進行參數估計。
根據個體數 和時期數
的大小,通常可以將面板數據分為宏觀面板和微觀面板:宏觀面板一般為 「大
小
」,微觀面板一般為「小
大
」。依據
、
大小不同,所采用的參數估計方法和分析中關注的重點也不盡相同。
二. 模型分類與選擇
面板數據模型可以分為固定效應( Fixed effect model )和隨機效應模型( Random effect model )。當 和
相關,即
,則該模型為固定效應模型;反之為隨機效應模型。
兩種模型的差異主要反映在對 “個體效應” 的處理上。
固定效應模型假設個體效應在組內是固定不變的,個體間的差異反映在每個個體都有一個特定的截距項上; 隨機效應模型則假設所有的個體具有相同的截距項, 個體間的差異是隨機的,這些差異主要反應在隨機干擾項的設定上。
基於此,一種常見的觀點認為, 當我們的樣本來自一個較小的母體時,我們應該使用固定效應模型,而當樣本來自一個很大的母體時, 應當采用隨機效應模型。
然而,在具體的實例應用中,大母體和小母體並沒有一個嚴格的界限,我們並不能明確地區分我們的樣本來自一個較大母體還是較小的母體。因此,有些學者認為,區分固定效應模型和隨機效應模型應當通過檢驗使用二者的假設條件是否滿足。
下面我們討論混合數據模型、固定效應模型和隨機效應模型的選擇。
2.1、固定效應的檢驗
固定效應的檢驗本質即檢驗個體間截距項的差異是否顯著,即=
=
=
=0。根據假設檢驗原理,設定如下原假設
若結果拒絕原假設,則表明個體間截距項存在顯著差異,模型中需要考慮固定效應。反之,混合 OLS 模型更為合適。通常可以利用 統計量來檢驗上述假設是否成立:
其中: 為固定效應模型的擬合優度系數(不受約束模型),
為混合數據模型的擬合優度系數(受約束模型);
和
分別為截面與時期數;
為解釋變量個數。若原假設被拒絕,則說明個體效應顯著,固定效應模型比混合數據模型更優。同理,可以構造相似的
統計量檢驗時期效應是否顯著。
2.2、隨機效應的檢驗
Breusch and Pagan (1980) 提出了基於面板隨機效應模型殘差的 LM統計量,構造如下原假設來檢驗隨機效應:
相應的檢驗統計量LM為:
在原假設下,該統計量服從自由度為1的卡方分布。若拒絕原假設則表明存在隨機效應。
2.3、固定效應還是隨機效應?
通過檢驗說明個體效應 () 需要被納入到模型中后,應該將
看成隨機干擾項的一部分(隨機效應模型)還是待估計參數
(固定效應模型),下面介紹一些基本方法。
(1) Hausman 檢驗
從基本定義出發,可以通過通過檢驗個體效應與其它解釋變量是否相關作為進行固定效應和隨機效應模型篩選的依據。此時,我們可以采用 Hausman 檢驗。其基本思想是:在
和其他解釋變量不相關假定下,采用組內變換法估計固定效應模型和采用GLS法隨機效應模型得到的參數估計都是無偏且一致的,只是前者不具有效性。若原假設不成立,則固定效應模型的參數估計仍然是一致的,但隨機效應模型不一致。因此,在原假設下,二者的參數估計應該不會有顯著的差異, 可以基於二者參數估計的差異構造統計檢驗量。
假設 為固定效應模型的組合估計,
為隨機效應模型的 GLS 估計。在原假設成立下,有
根據方差公式
又因為 ,因此有
Hausman 檢驗基於如下 Wald 統計量
若拒絕原假設,表明個體效應 與解釋變量相關,此時隨機效應模型的結果不一致,應選擇固定效應模型。
(2) 穩健Hausman檢驗Wooldridge (2002)
當不服從同方差假設時,傳統的 Hausman 檢驗方法失效。Wooldridge (2002) 提出了一種穩健版的 Hausman 檢驗方法。建立如下輔助模型:
其中: 為時變解釋變量。當 RE 估計為完全有效估計時,利用 Wald 統計量做
檢驗所得結果應該漸近相等於標准的檢驗。當RE 估計為不是完全有效估計時,Wooldridge (2002) 提出在cluster-robust 標准誤下做上述檢驗。
(3) 修正的 Hausman統計量
在固定效應模型與隨機效應模型選擇上,Hausman 統計量被廣泛地應用於實證研究中。從上述看,該檢驗統計量漸近服從卡方分布,值應該為正數。然而,實際問題中計算出的統計值常出現負值的情況。針對出現負值這一現象,許多學者進行了研究,但並未形成一致的觀點。
一種觀點認為出現這樣的情況主要是由小樣本偏誤引起,並建議此時應該解釋為不能拒絕原假設,應選擇隨機效應模型 (如,Baltagi, 2008; Hsiao, 2003;Statacrop, 2009)。
另一種觀點認為該統計量出現負值恰恰表明原假設不合理,此時應該選擇固定效應模型。這些研究表明這種狀況不僅僅出現在小樣本情況下,在大樣本情況下也時有發生 (Schreiber, 2008; Magazzini and Calzolarr, 2010)。如沈根祥 (2010) 在利用高頻數據時也出現統計量為負值的情形。
連玉君等 (2014) 利用蒙特卡洛模擬方法得到內生性問題 (即解釋變量與個體效應相關) 是導致統計量出現負值的主要原因。模擬分析表明,修正的 Hausman 統計量,以及過度識別檢驗方法能夠很好地克服上述缺陷。
修正的 Hausman 統計量主要是對 或
進行調整。調整后的統計量為
或者為
其中: 和
分別為固定效應模型和隨機效應模型下的均方根誤差。
(4) 基於過度識別檢驗的 Wald 統計量
基於通常的 Hausman 統計量在存在異方差 (heteroskedastic) 情況下失效且當定義 cluster-robust 標准誤時不再適用問題,Arellano (1993) 基於過度識別檢驗提出了 Wald 檢驗統計量解決這一問題。在條件同方差情況下,該檢驗統計量與通常的Hausman統計量漸近相等。此外,該統計量始終為正數。
如前所述,FE 估計和 RE 估計都需要滿足一般意義上的外生性假設條件,即 ,而 RE 估計還要進一步滿足面板特定的外生性假設條件,即
。
我們可以將這個新增加的正交條件視為一個過度識別約束,以此來區分 RE 估計的前提假設是否合理。我們可以通過估計如下模型來構造 Wald 統計量
其中:,
。
和
具有相似的定義。顯然,在上式中,
的 OLS 估計即為 RE 估計量
,而
的 OLS 估計即為
之間的差異,即
利用 Wald 檢驗假設 ,所得統計量即為過度識別檢驗的 Wald 統計量
。
(5) Mundlak’s (1978) 方法
在原假設成立情況下,估計量的有效性假設 (存在最小漸近方差) 是運用Hausman 檢驗的前提條件。然而,當誤差項存在異方差或者序列相關時,這個條件往往不能夠被滿足。即使在這個條件滿足情況下,該方法也可能存在小樣本問題。 這里介紹另外一種方法,即 Mundlak’s(1978) 提出的一種檢驗方法。與通常的 Hausman檢驗不同,該方法在誤差項不滿足同方差和序列不相關情況下也是有效的。
設定如下線性模型:
Mundlak 方法的思想為檢驗和解釋變量
是否存在相關。因此,建立如下關系式:
其中: 是
的組內平均,
是非時變的,且與自變量不相關的。
要保證 和解釋變量
不相關,只需
=0。根據以上式子,可以轉化為檢驗如下方程的系數
因此,只需要回歸這個方程,並檢驗 是否成立。若拒絕原假設,則
和解釋變量
存在相關,應選擇固定效應模型。
(6) Bootstrap Hausman檢驗
傳統的 Hausman 檢驗統計量可定義為
傳統 Hausman 檢驗有效的前提條件是,在原假設為真的情況下,其中一個估計量為完全有效的。然而,實際應用中這個假設通常不被滿足。特別地,當利用穩健標准誤時,估計量通常非有效。
Bootstrap方法可以在估計量非有效的情況估計 。假設重復進行 B 次抽樣,可以得到 B 個
和
估計值,進而可得到 B 個
估計值。
可以利用下面式子進行估計
其中:。
三. Stata 實現
本部分以 Kleiber 和 Zeileis (2008) 的Grunfeld.dta數據集為例,說明運用面板數據模型的一般步驟。
3.1. 讀取數據與面板數據設定
. webuse grunfeld,clear //利用webuse從網絡讀取數據 . list in 1/10 // 顯示該數據集的前10行

xtset company year,yearly //設置面板數據格式,利用 Stata 中`xt`開頭的命令,必須用該命令進行設置。yearly表示年度數據,詳細參考 `help xtset`

3.2. 模型檢驗與模型選擇
本部分內容安排如下:
(1)個體效應和隨機效應的聯合顯著性檢驗,以判別是否需要利用面板數據模型;
(2)若表明需用面板數據模型,利用Hausman統計量選擇固定效應模型或隨機效應模型更優;
(3)考慮到一般的Hausman檢驗在異方差和自相關情況下失效風險問題,對異方差,序列相關進行檢驗,以說明是否需要利用其它方法進行選擇;
(4)針對一般的Hausman檢驗統計量可能為負值且對在異方差和序列相關情況不穩健問題,對穩健 Hausman 檢驗,修正的 Hausman統計量, 基於過度識別檢驗的Wald統計量法,Mundlak’s (1978)法,基於 bootstrap法的hausman檢驗等方法的Stata實現進行講解。
(5)在選定固定效應模型或隨機效應模型后,依據誤差項結構(異方差,序列相關,截面相依)以及不同面板結構(「大小
」,「大
小
」),
介紹相應的參數估計命令。
(1)個體效應和隨機效應的聯合顯著性檢驗
以invest為因變量,mvalue kstock為自變量,建立如下模型:
其中:和
為待估系數。
利用Stata中 xtreg
可以方便實現面板固定效應模型與面板隨機效應模型的估計。xtreg
命令的語法如下:

xtreg invest mvalue kstock,fe //fe表示固定效應;若同時包括時期虛擬變量,xtreg invest mvalue kstock i.year,fe,利用 testparm 檢驗

xtreg invest mvalue kstock,re //re表示隨機效應

xttest0 //檢驗隨機效應是否顯著,需要運行隨機效應模型后使用

(2)Hausman檢驗
上述結果說明了有必要考慮個體效應和隨機效應,接下來利用hausman
命令進行固定效應模型和隨機效應模型的選擇,主要步驟為:
- 步驟一:估計固定效應模型,存儲估計結果;
- 步驟二:估計隨機效應模型,存儲估計結果;
- 步驟三:進行Hausman檢驗;
利用hausman
命令之前,有必要對其語法進行說明:
. hausman name-consistent [name-efficient] [, options]

接下來進行hausman檢驗,
xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result hausman fe_result re_result

(3)異方差和序列相關檢驗
前文已經說明,當模型誤差項存在序列相關或異方差時,此時經典的Hausman 檢驗不在適用,下面我們進行序列相關和異方差檢驗。
序列相關檢驗
先進行序列相關檢驗,在固定效應模型時可以利用命令xtserial
,原假設為不存在序列相關。
xtserial invest mvalue kstock

同樣地,在隨機效應時可以利用命令xttest1
,原假設為不存在序列相關。

異方差檢驗
Greene (2000, p598) 提出一種修正的Wald統計量檢驗異方差,與標准的Wald統計量、LR和LM統計量不同,修正Wald檢驗同樣適用於模型殘差不服從
正態分布情況下。值得一提的是,在大小
情況下,該方法的檢驗功效較低。該檢驗的原假設為同方差。
xtreg invest mvalue kstock,fe xttest3

(4)模型選擇其它方法
第一種:穩健 Hausman 檢驗**
目前 Stata 中沒有相應的命令進行穩健 Hausman檢驗, 根據 2.3 中 (2) 部分公式,可以編寫如下代碼進行檢驗
webuse grunfeld, clear xtset company year quiet xtreg invest mvalue kstock,re scalar theta = e(theta) global xlist2 invest mvalue kstock sort company foreach x of varlist $xlist2 { by company: egen mean`x' = mean(`x') generate md`x' = `x' - mean`x' generate red`x' = `x' - theta*mean`x' } quiet reg redinvest redmvalue redkstock mdmvalue mdkstock, vce(cluster company) test mdmvalue mdkstock

第二種: 修正的 Hausman統計量
xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result hausman fe_result re_result,sigmamore

hausman fe_result re_result,sigmaless

第三種:基於過度識別檢驗的Wald統計量
xtreg invest mvalue kstock, re cluster(company) xtoverid

運行后提示需要更高版本的ivreg2
等命令,可以通過 net install ivreg2,from("http://fmwww.bc.edu/RePEc/bocode/i")
進行更新。然后再運行

上述結果表明拒絕假設,應該選擇固定效應模型。
第四種:Mundlak’s (1978)法
根據上文所述原理,可通過如下三個步驟實現該方法:
第一:計算解釋變量均值
local xlist "mvalue kstock" foreach f of local xlist{ bysort company: egen mean_`f' = mean(`f') }
第二步:估計包含均值的回歸方程:
xtreg invest mvalue kstock mean_mvalue mean_kstock,re vce(robust) est store Mundlak_result
第三步:利用test
進行假設檢驗
test mean_mvalue mean_kstock
結果如下

此外,也可以通過外部命令 mundlak
實現相同的系數估計,不過應該注意的是由於 mundlak
不能得到穩健的標准誤,得到的標准誤和上述
手動運行方法不一致,所以test
結果也就不一致。
mundlak invest mvalue kstock,full
test mean__mvalue mean__kstock

第五種:基於 bootstrap法的hausman檢驗
由於存在序列相關和異方差,經典的hausman
命令不再適用,下面使用基於bootstrap的hausman
檢驗命令rhausman
進行檢驗。
xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result rhausman fe_result re_result,reps(200) cluster

從檢驗結果可以發現,利用經典的hausman
和bootstraphausman
均顯示應該選擇隨機效應模型,而利用其他方法結果顯示選擇固定效應模型。
除了序列相關和異方差檢驗之外,截面相依檢驗也尤為重要。在固定效應模型中,可以利用命令xttest2
進行檢驗,該方法是基於似不相關回歸(SUR)進行
估計,所以一般要求截面數比時期數
小;在隨機效應模型中利用
xtcsd
進行檢驗,當然該命令也適用於固定效應模型。
(5)相關 Stata 命令推薦
依據誤差項結構(異方差,序列相關,截面相依)以及不同面板結構(「大TT小NN」,「大NN小TT」), 下文介紹相應的參數估計命令。
截面相依檢驗
qui xtreg invest mvalue kstock, fe xttest2

qui xtreg invest mvalue kstock, re xtcsd, pesaran

當誤差項存在序列相關,異方差或截面相依時,依據形式不同,可以利用不同的方法和命令進行估計,詳細可以參考 Hoechle (2007)。

幾點說明
-
vce(robust)
和vce(cluster)
: 前者適用於異方差且觀測值之間獨立情況(heteroscedasticity-consistent standard errors);后者
適用於異方差且允許觀測值組內相關。例如cluster(group)
的含義是:假設干擾項在 group 之間不相關,而在 group 內部存在相關性。
若 group 代表行業類別,則表示行業間的公司所面臨的隨機干擾不相關,而行業內部不同公司間的干擾項存在相關性,或者是說,行業內的公司受到了一些共同的干擾因素。這部分內容將在后續的推文中詳細介紹。 -
固定效應模型與隨機效應模型選擇,學者們存在不同的觀點。一些學者檢驗利用嚴格的統計檢驗選擇,有些學者認為應該根據實際分析的需要進行選擇,比如主要變量為不隨時變的,那則必須采用隨機效應模型。
-
面板固定效應模型的估計除了可利用
xtreg,fe
進行估計外,也可以利用areg
或者reg
+ dummy variables進行估計,注意這些方法的差異。 -
上文中涉及到的一些命令,如
xttest0
,xttest1
,xttest2
,xttest3
,xtserial
,xtcsd
,rhausman
等需要下載安裝。
4. 總結
雖然本文系統地介紹了靜態面板數據模型的各種檢驗方法,但從現有的文獻來看,實操層面的做法往往是單刀直入,甚至多少有些粗暴。
具體而言:
- 多數情況下 (90% 以上),學者們都直接使用 FE,而 RE 則鮮有使用 (至少在公司金融和會計領域是如此)。
- 如果一定要在 FE 和 RE 之間進行篩選 (通常是為了應對審稿人),建議采用假設較為寬松的 穩健 Hausman 檢驗 (
help xtoverid
) 或 bootstrap hausman 檢驗法 (help rhausman
)。 - 在估計 FE 時,主流的做法是使用 「雙向固定效應模型+聚類標准誤」,即同時包含個體效應與時間效應的面板固定效應模型。對應的 Stata 命令為:
xtreg y x1 x2 i.year, fe robust
。注意:若僅關注系數估計值和其標准誤,該命令等價於xtreg y x1 x2 i.year, vce(cluster id)
以及reg y x1 x2 i.id i.year, vce(cluster id)
。換言之,xtreg, fe robust
中的robust
選項本身就是在公司層面上聚類調整后的異方差穩健性標准誤。
附錄:文中所用 Stata dofiles
clear webuse grunfeld,clear //利用webuse從網絡讀取數據 list in 1/10 // 顯示該數據集的前10行 xtset company year,yearly //設置面板數據格式 xtreg invest mvalue kstock,fe //fe表示固定效應;若同時包括時期虛擬變量,xtreg invest mvalue kstock i.year,fe,利用 testparm 檢驗 xtreg invest mvalue kstock,re //re表示隨機效應 xttest0 //檢驗隨機效應是否顯著,需要運行隨機效應模型后使用 ** 傳統 hausman 檢驗 xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result hausman fe_result re_result xtserial invest mvalue kstock //序列相關檢驗,隨機效應可以使用xttest1 xtreg invest mvalue kstock,fe xttest3 //異方差檢驗 ** 穩健 hausman 檢驗方法 quiet xtreg invest mvalue kstock,re scalar theta = e(theta) global xlist2 invest mvalue kstock sort company foreach x of varlist $xlist2 { by company: egen mean`x' = mean(`x') generate md`x' = `x' - mean`x' generate red`x' = `x' - theta*mean`x' } quiet reg redinvest redmvalue redkstock mdmvalue mdkstock, vce(cluster company) test mdmvalue mdkstock **修正hausman檢驗方法 xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result hausman fe_result re_result,sigmamore hausman fe_result re_result,sigmaless ** 基於過度識別檢驗法 xtreg invest mvalue kstock, re cluster(company) xtoverid ** Mundlak’s (1978)法 local xlist "mvalue kstock" foreach f of local xlist{ bysort company: egen mean_`f' = mean(`f') } xtreg invest mvalue kstock mean_mvalue mean_kstock,re vce(robust) est store Mundlak_result test mean_mvalue mean_kstock ** 基於 bootstrap 法的 hausman 檢驗 xtreg invest mvalue kstock,fe est store fe_result xtreg invest mvalue kstock,re est store re_result rhausman fe_result re_result,reps(200) cluster ** 截面相依檢驗 qui xtreg invest mvalue kstock, fe xttest2 qui xtreg invest mvalue kstock, re xtcsd, pesaran
參考文獻
- 鍾經樊和連玉君.計量分析與 STATA 應用,2010.
- Hoechle D. Robust standard errors for panel regressions with cross–sectional dependence[J]. Stata Journal, 2007, 7(3):281-
- Breusch T S, Pagan A R. The Lagrange Multiplier Test and its Applications to Model Specification in Econometrics[J]. Review
of Economic Studies, 1980, 47(1):239-253. - Mundlak, Y. On the pooling of time series and cross section data. Econometrica, 1978, 46:69-85.
- Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice--Hall.
- How can the standard errors with the vce(cluster clustvar) option be smaller than those without the vce(cluster clustvar)
option? https://www.stata.com/support/faqs/statistics/standard-errors-and-vce-cluster-option/ - https://blog.stata.com/2015/10/29/fixed-effects-or-random-effects-the-mundlak-approach/
- Kleiber C, Zeileis A (2008). Applied Econometrics with R. Springer-Verlag, New York. ISBN978-0-387-77316-2, URL
https://cran.r-project.org/package=AER. - Arellano, M. 1993. On the testing of correlated effects with panel data. Journal of Econometrics, Vol. 59, Nos. 1-2, pp.
87-97.
10.Wooldridge, J.M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press.
作者:stata連享會
鏈接:https://www.jianshu.com/p/e103270ce674
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權並注明出處。