內生解釋變量
內生性的含義
假設多元回歸模型:
回顧零條件均值假設 MLR.4 :
根據 MLR.4 我們可以得到推論:
如果 \({\rm Cov}(x_i,\,u)\neq0\) ,則稱 \(x_i\) 為內生解釋變量;
如果 \({\rm Cov}(x_j,\,u)=0\) ,則稱 \(x_j\) 為外生解釋變量。
當多元回歸模型違背了零條件均值假設時,我們稱模型存在內生解釋變量問題,又稱內生性問題。在截面數據中,內生性問題只存在同期內生變量的問題;在時間序列數據中,還有可能出現同期無關但異期相關的內生性問題。
同期內生變量問題:
同期無關,異期相關問題:
因此,在時間序列模型的基本假設 TS.3 中,我們需要對模型施加嚴格外生假設,才能保證模型不會出現內生解釋變量的問題。
內生性的產生原因
建立的模型中遺漏了重要的解釋變量,並且被遺漏的解釋變量與模型中的其他解釋變量相關:
例:假設真實的模型設定為
\[\log(wage)=\beta_0+\beta_1educ+\beta_2abil+\varepsilon \ , \]由於 \(abil\) 不可觀測而估計的模型為
\[\log(wage)=\beta_0+\beta_1educ+u \ , \]其中 \(u=\beta_2abil+\varepsilon\) 。
此外我們假設 \({\rm Cov}(educ,\,abil)\neq0\) ,從而 \({\rm Cov}(educ,\,u)\neq0\) ,於是造成了解釋變量的內生性問題。
解釋變量存在測量誤差:
例:假設真實的模型為
\[y=\beta_0+\beta_1inc^*+\varepsilon \ , \]由於存在測量誤差而估計的模型為
\[y=\beta_0+\beta_1inc+u \ . \]其中 \(inc\) 是報告收入,\(inc^*\) 是真實收入,因此測量誤差為 \(e=inc-inc^*\) 。
我們將真實的模型改寫為
\[y=\beta_0+\beta_1(inc-e)+\varepsilon=\beta_0+\beta_1inc+\varepsilon-\beta_1e \ . \]如果報告收入 \(inc\) 與測量誤差 \(e\) 相關,就會造成內生性問題。
聯立方程模型:
- 在一個經濟系統中,變量之間相互依存,互為因果,而不是簡單的單向因果關系,必須用一組方程才能描述,稱為聯系方程模型。
- 聯系方程模型的每個方程稱為結構方程。
- 每個結構方程的被解釋變量是經濟系統的內生變量,而解釋變量既包括經濟系統的外生變量,也包括其他內生變量,由經濟行為關系決定。
- 聯系方程模型的每個結構方程一般都存在內生解釋變量的問題。
(我們在后面單獨作為一節來詳細討論聯立方程模型)
內生性的后果
違背假設 MLR.4 ,無論樣本大小,都會造成OLS 估計量有偏、非一致。不僅影響內生解釋變量的參數估計,也影響其他外生解釋變量的參數估計。
以簡單線性回歸模型 \(y=\beta_0+\beta_1x+u\) 為例,假設 \(x\) 是內生解釋變量:
有偏性:
非一致性:
在多元線性回歸模型中,用矩陣形式也可以解釋:
最后一行不等號的原因:存在內生解釋變量,即使只有一個,也會使得 \({\rm E}\left(\boldsymbol{X}^{\rm T}\boldsymbol u\right)\neq0\) 。
內生性的修正措施
工具變量法
工具變量的選取
工具變量:在模型參數估計的過程中被作為工具使用,以替代模型中與隨機干擾項相關的內生解釋變量。注意,這里的替代指的是矩估計中的矩條件,用工具變量 \(z\) 代替內生解釋變量,並非是將回歸模型中的內生解釋變量全部替換。
選擇為工具變量的變量必須滿足以下條件:
假設多元回歸模型 \(y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u\) 中存在內生解釋變量 \(x_j\) ,設 \(z\) 為內生解釋變量 \(x_j\) 的工具變量,則 \(z\) 需要滿足:
(1) 相關性條件:\({\rm Cov}(z,\,x_j)\neq0\) ,
- 工具變量 \(z\) 與內生解釋變量高度相關;
- 可以用回歸分析的方法進行檢驗,工具變量的系數顯著,相當於兩階段法的第一階段。
(2) 排他性條件:\({\rm Cov}(z,\,u)=0\) ,
- 工具變量 \(z\) 與干擾項不相關,即 \(z\) 在模型中為外生變量,只能通過內生變量 \(x_j\) 影響 \(y\) 。
一元回歸模型的 IV 估計
設一元回歸模型如下所示,其中 \(x\) 是內生解釋變量:
設 \(z\) 是 \(x\) 的工具變量,滿足相關性條件和排他性條件。主要利用矩估計,我們先對回歸模型的兩邊同時求關於 \(z\) 的協方差:
根據相關性條件和排他性條件,寫出總體矩條件:
此時我們稱 \(\beta_1\) 被識別了,可以寫為:
將總體矩條件改寫為樣本矩的形式,我們可以得到 \(\beta_1\) 的 IV 估計量:
此時 \(\beta_0\) 的 IV 估計量為:
可以證明 IV 估計量在小樣本是有偏的估計量,但是在大樣本下是一致的估計量。
多元回歸模型的 IV 估計
我們用矩陣形式來解釋多元回歸模型的工具變量法,首先寫出回歸模型:
設 \(x_2\) 為內生解釋變量,我們定義工具變量矩陣 \(\boldsymbol z\) 為用工具變量 \(z\) 代替 \(x_2\) 之后的矩陣:
由總體矩條件 \({\rm E}(z_iu_i)=0\) 我們可以得到樣本矩條件 \(\boldsymbol{z}^{\rm T}\boldsymbol{u}=0\) ,因此我們在回歸模型中左乘矩陣 \(\boldsymbol{z}^{\rm T}\) :
此時我們有 \(\boldsymbol\beta\) 的 IV 估計量為:
兩階段最小二乘法 2SLS
兩階段法適用於單個內生解釋變量,多個工具變量的情形。假設多元回歸模型設定如下:
假設 \(X_k\) 是內生解釋變量,其他解釋變量均為外生解釋變量,設 \(Z\) 是影響 \(X_k\) 且外生的工具變量。
step.1 令 \(X_k\) 對 \(Z,X_1,\cdots,X_{k-1}\) 做回歸,得到 \(X_k\) 的擬合值
step.2 用 \(\hat{X}_k\) 代替 \(X_k\) 進行多元回歸:
如果有多個工具變量,只需在第一階段將所有工具變量放在等號右邊進行回歸即可
此時得到的 \(\hat\beta_k\) 被稱為兩階段法估計量,是有偏但一致的估計量。
豪斯曼檢驗
對內生性的檢驗方法,比較常用的就是豪斯曼檢驗。我們設定如下模型:
其中我們懷疑內生變量為 \(y_2\),已知的外生變量為 \(z_1\),\(z_2\),結構方程中不出現的外生變量 \(z_3\),\(z_4\)。
豪斯曼建議直接比較 OLS 和 2SLS 估計值,判斷其差異是否在統計上顯著。如果所有變量都是外生的,則 OLS 和 2SLS 都是一致的。如果 2SLS 與OLS 明顯不同,就斷定 \(y_2\) 必定是內生的。
step.1 將 \(y_2\) 對所有外生變量回歸而估計 \(y_2\) 的約簡型方程,得到殘差 \(\hat{\nu}_2\) :
我們認為 \(y_2\) 與 \(u_1\) 不相關的充要條件為 \(\nu_2\) 與 \(u_1\) 不相關 。
這一步起到了過濾器的作用:\(\nu_2\) 是 \(y_2\) 中內生的部分。
step 2. 檢驗方程 \(u_1=\delta_1\nu_2+\varepsilon_1\) 中的 \(\delta_1=0\) 的假設:
使用 OLS 估計,根據 \(t\) 統計量檢驗 \(\delta_1=0\) 。如果 \(\delta_1\) 顯著為 \(0\) ,則 \(y_2\) 為同期外生變量。
聯立方程問題
英文解釋為 Simultaneous Equations——互為因果導致的內生性問題:
其中 \(Z_2\) 和 \(X_2\) 都是外生變量,\({\rm E}(\varepsilon|Z_2,\,X_2)=0\),\({\rm E}(u|Z_2,X_2)=0\) ,結構方程的因變量 \(Y_1\) 和 \(Y_2\) 都是內生變量,有聯立方程系統(SES)決定。此時,通過 OLS 估計任何一個結構方程都得不到結構型參數的一致且無偏的估計量。
假設 \(\varepsilon\) 和 \(u\) 相互獨立,且假設 \(\gamma_1\beta_1\neq1\) ,這意味着兩個結構方程不應該描述兩個內生變量相同的結構關系。
可以得到以下推論:
- 若 \(\gamma_1\neq0\) ,則有 \({\rm E}(\varepsilon|Y_2)\neq0\ \text{or} \ \text{constant}\) .
- 若 \(\beta_1\neq0\) ,則有 \({\rm E}(u|Y_1)\neq0\ \text{or} \ \text{constant}\) .
推論的證明如下:
把 \(Y_1\) 代入到 \(Y_2\) 的結構方程中,
求解 \(Y_2\) 得到:
因此有
同理可以求解 \(Y_1\) 得到
求解 \(Y_1\) 和 \(Y_2\) 之后的方程被稱為約簡型方程,需要注意以下兩點:
- 約簡型方程是關於外生解釋變量的方程;
- 約簡型方程沒有經濟學解釋。
在當前的模型設定下,\(X_2\) 可以作為 \(Y_2\) 的工具變量, \(Z_2\) 可以作為 \(Y_1\) 的工具變量。