面板數據模型
經濟數據模型
在介紹面板數據之前,我們先回顧一下計量經濟學中涉及的各類數據類型。
橫截面數據,Cross-sectional Data ,指在特定的時點上,對個人、家庭、企業、城市、省份、國家或一系列其他單位采集的樣本所構成的數據集。
- 通常假定樣本是從總體中隨機抽樣而得到的,常用指標集 \(i=1,2,\cdots,n\) 表示隨機樣本。
- 計量分析的結果與數據的排序無關。
時間序列數據,Time-series Data ,指由一個或幾個變量不同時間的觀測值所構成,或是由同一觀測個體在不同時點上所觀測的數據構成。
- 時間序列的數據前后之間具有相關性。
- 常用時間指標集 \(t=1,2,\cdots,T\) 表示有序樣本數據,不滿足隨機樣本的設定。
混合截面數據,Pooled Cross-sections Data ,指既有橫截面數據的特點,又有時間序列數據特點的數據。為了擴大樣本容量,可以將數據合並成一個混合截面數據。
- Cross-section 與 Time-series 同時存在,需引入兩組指標集 \(i=1,2,\cdots,n\) 和 \(t=1,2,\cdots,T\) 分別表示隨機樣本和時間序列。
- 在計量分析過程中,需要引入表示時間變化的虛擬變量以擴大樣本容量。
- 不同時間點上的截面個體可能不一樣。
- 例如:2008年,隨機抽取一組家庭針對某些變量做調查;2010年,再隨機抽取一組新家庭做調查。
面板數據,Panel Data,指將橫截面數據域時間序列數據結合起來的數據,即對橫截面中的觀測個體在時間上進行連續觀測所得到的數據。
- 不同時點上相同截面個體,即只在第一期做隨機抽樣,后面都在觀察這一組樣本的數據。
- 例如:收集同一組公司不同時點的財務信息。
- 面板數據通常能夠研究決策行為或結果中滯后的重要性,所以反映的信息更有意義。
- 由於面板數據要求對同一組個體在不同時期進行重復觀測,因此面板數據的收集成本更大。
面板數據模型的基本形式
面板數據模型同時包含了截面和時間兩個維度,設 \(i=1,2,\cdots,n\) 表示截面個體,\(t=1,2,\cdots,T\) 表示時間。面板數據模型的基本形式為
模型誤差一般可以認為由三部分組成:
\(\alpha_i\) 表示個體效應、非觀測效應、固定效應,表示那些不隨時間改變的影響因素,如個人的消費習慣、企業文化、經營風格等。
\(\lambda_t\) 表示時間效應,用於控制隨時間改變的影響,如用於表示技術進步的時間趨勢項。
\(\varepsilon_{it}\) 表示特異性誤差、時變誤差,是整個模型的隨機誤差項。
在這里將 \(\alpha_i\) 和 \(\lambda_t\) 設定為干擾項,因為 \(\alpha_i\) 和 \(\lambda_t\) 在多數情況下都是無法直接觀測或難以量化的,因此也就無法作為解釋變量進入模型。使用截面分析的模型往往會引起遺漏變量的問題。一般地,我們不考慮時間效應,或者說將 \(\lambda_t\) 的作用並入了 \(\varepsilon_{it}\) 中。此時,我們可以設定線性的面板數據模型為
其中 \(\alpha_i+\varepsilon_{it}=u_{it}\) ,並且假設 \(\varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2)\) 。
根據 \(\alpha_i\) 的不同狀態,我們可以將面板數據模型分為三類:混合回歸模型,固定效應模型,隨機效應模型。其差異主要反映在對個體效應的處理上。
混合回歸模型就是由混合截面數據構成的計量經濟學模型。正如我們在經濟數據模型中介紹的,這里的混合回歸模型嚴格來說並不屬於面板數據模型,它是面板數據模型的一種退化形式。當對所有的截面個體 \(i\) ,個體效應 \(\alpha_i\) 均相等時,模型退化為混合回歸模型。
混合回歸模型的基本形式
混合回歸模型假設所有的橫截面個體在各個不同的時期的截距和斜率都是相同的,這樣可以直接把面板數據混合在一起,或是直接收集不同時間點上的不同截面個體數據,即混合截面數據。
混合回歸模型可以直接用 OLS 方法進行參數估計。
固定效應模型的基本形式
固定效應模型的每一個截面個體具有不同的截距項(常數項)。即 \(\alpha_i\) 概括了影響着 \(y_{it}\) 但不隨着時間而變化的所有無法觀測的因素。
固定的含義:\(\alpha_i\) 是個常數。雖然每個截面個體具有不同的截距項,但是每個截面個體的截距項並不隨着時間而變化。即在時間上是固定的,只和個體相關。
由於 \(\alpha_i\) 表現出個體異質性,觀測不到,所以一般假設 \(a_i\) 與 \(x_{it}\) 相關:\({\rm Cov}(\alpha_i,\,x_{it})\neq 0\) 。
隨機效應模型的基本形式
其中,截距項 \(\alpha_i\) 是一個隨機變量,設其均值為 \({\rm E}(\alpha_i)=\alpha\) ,則可以將 \(\alpha_i\) 寫為
這里的 \(v_i\) 是一個隨機變量,滿足零均值假設和同方差假設。隨機效應的含義為,假設個體間的差異是隨機的,反應在隨機干擾項的設定上。
一般假設這種隨機的個體間差異與 \(x_{it}\) 無關:\({\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0\) 。
由於隨機效應模型具有多種隨機誤差項,因此我們需要提出一系列的隨機效應模型的方差結構假定:
從上到下依次為:假設兩種隨機誤差項 \(v_i\) 和 \(\varepsilon_{it}\) 均滿足零均值假設,假設兩種隨機誤差項 \(v_i\) 和 \(\varepsilon_{it}\) 相互獨立,假設時變誤差 \(\varepsilon_{it}\) 不具有序列相關性,假設兩種隨機誤差項 \(v_i\) 和 \(\varepsilon_{it}\) 均滿足同方差假設。
由於兩種隨機誤差項均不可觀測,因此我們常常將兩者寫在一起。設 \(u_{it}=v_i+\varepsilon_{it}\) ,根據上述假設條件可以得到:
對於個體 \(i\) ,設 \(\boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT})\) ,我們可以寫出隨機誤差項的協方差矩陣:
固定效應模型的參數估計
最小二乘虛擬變量估計法 LSDV
由於固定效應模型假設存在着“個體效應”,每個截面個體都有其單獨的截距項。這就相當於在經典的線性回歸模型中,通過加法方式引入 \(n-1\) 個虛擬變量來代表不同的個體。如果省略模型的常數項 \(\beta_0\) ,則引入 \(n\) 個虛擬變量。
如果一元的固定效應模型設定為
假設上式為含截距項的模型,因此我們可以引入 \(n-1\) 個虛擬變量:
此時我們的虛擬變量模型設定為:
對上式進行 OLS 回歸,我們可以得到 LSDV 估計量 \(\hat\beta_1\) 。
該模型還可以用來檢驗應該選擇混合回歸模型還是固定效應模型。利用受約束回歸模型和 \(F\) 檢驗,約束條件為 \(\gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0\) 。如果接受原假設,則認為不存在個體異質性,此時應該選擇混合回歸模型。如果拒絕原假設,則認為存在個體異質性,此時應該選擇固定效應模型。
一階差分法 FD
在固定效應模型中,截距項 \(\alpha_i\) 表示的個體異質性是一個常數,且並不隨着時間而變化。因此,我們可以通過差分的方式消去模型中的個體異質性,從而可以使用 OLS 進行回歸。
考慮一元的情況,假設固定效應模型設定如下:
寫出一階滯后的情況:
兩式相減得到一階差分方程:
可以看到,非觀測效應 \(\alpha_i\) 被差分掉了,因此上述模型只要滿足經典假設便可以通過 OLS 回歸進行參數估計。由一階差分方程得到的 OLS 估計量稱為一階差分估計量 \(\hat\beta_{1,fd}\) 。
為了保證 \(\hat\beta_{1,fd}\) 的一致性,需假定 \(\Delta X_{it}\) 與 \(\Delta\varepsilon_{it}\) 無關:
需要注意的是,一階差分法可能會存在 \(\Delta\varepsilon_{it}\) 和 \(\Delta\varepsilon_{i,t-1}\) 相關的問題。
固定效應轉換法 FE
又稱為除時間均值法、固定效應估計法、組內變換法。當 \(n\) 很大時,利用 LSDV 回歸會損失大量的自由度,可以考慮對模型進行變化,消去常數項,再用變換后的模型進行回歸。該模型的另一好處是可以消除 \(\alpha_i\) 與其他解釋變量的相關性。
仍然考慮一元的情況:
對每個橫截面個體 \(i\) 求方程在時間上的均值(組間均值):
兩個模型相減得到:
經過變換后的模型即可通過混合 OLS 進行參數估計。基於除時間均值變量的混合 OLS 估計量被稱為固定效應估計量 \(\hat\beta_{1,fe}\) 。
隨機效應模型的參數估計
隨機效應模型將固定效應模型的個體異質性歸入到隨機誤差項中,因此更加靈活,也具有更加復雜的隨機誤差項的結構。此時我們需要通過變換,構造出符合基本假設的隨機誤差項。因此我們使用 GLS 進行參數估計。
仍然考慮一元的隨機效應模型:
假設該模型含有截距項,設 \(u_{it}=v_i+\varepsilon_{it}\) 為模型的非觀測誤差。
定義:\(\lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}}\) , \(\bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it}\) ,\(\bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it}\) 。我們可以做如下變換:
可以驗證此時的隨機誤差項不存在序列相關性:\({\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0\) 。對變換后的方程進行 OLS 回歸得到 GLS 估計量 \(\hat\beta_{1,re}\) ,也被稱作隨機效應估計量。在滿足 \({\rm E}(u_{it}|x_{it})=0\) 假設條件下,隨機效應估計量是有效的。
隨機效應模型與固定效應模型的選擇
豪斯曼檢驗
這里的豪斯曼檢驗並非內生性檢驗,而是隨機效應檢驗。檢驗的基本思路:如果 \({\rm Cov}(\alpha_i,\,x_{it})\neq0\) ,則 GLS 估計量是有偏和非一致的,但是固定效應估計量是無偏且一致的。所以,如果模型的異質性與解釋變量之間是正交的,則應將模型設定為隨機效應模型,否則設定為固定效應模型。
這里的正交指的是:若 \({\rm E}(XY)=0\) ,則稱隨機變量 \(X\) 和 \(Y\) 正交。
\(H_0\) :個體異質性與 \(x_{it}\) 不相關。
\(H_1\) :個體異質性與 \(x_{it}\) 相關。
用矩陣和向量的形式,構造 Wald 統計量:
其中 \(k\) 是解釋變量的個數。
如果拒絕原假設,則選擇固定效應模型;如果接受原假設,則選擇隨機效應模型。
實證研究中的模型選擇問題
- 固定效應模型僅適用於所抽到的橫截面單位,不適用於樣本以外的單位。即如果所抽取的樣本本身是總體,例如從全國抽取所有的省份,那么固定效應模型就是一個合理的面板數據模型。
- 如果想以樣本結果對總體進行推斷分析,那么應該選用隨機效應模型,即把反映個體差異的特定常數項看作是跨個體成員的隨機分布更為合適。例如從全國抽取部分省,固定效應模型便僅適用於所抽到的個體成員單位,而不適用於樣本之外的其他單位,這時采用隨機效應模型就較為合適。