異方差
在上一節的討論中,完全共線性問題違背了基本假定 MLR.3 ,而多重共線性沒有違背任何一個基本假定,因此 OLS 估計量仍然具有 BLUE 性質。這一篇筆記我們主要來討論異方差問題,即如果違背了同方差假定 MLR.5 的情況。
異方差的含義
在介紹異方差之前,我們先回顧一下同方差的情況。方差是度量被解釋變量的觀測值圍繞回歸線的分散程度,因此同方差假定指的是所有觀測值的分散程度相同。
\[{\rm Var}(\boldsymbol{u}|\boldsymbol{X}) = \left[ \begin{array}{cccc} \sigma^2 & & & \\ & \sigma^2 & & \\ & & \ddots & \\ & & & \sigma^2 \\ \end{array} \right] = \sigma^2 \left[ \begin{array}{cccc} 1 & & & \\ & 1 & & \\ & & \ddots & \\ & & & 1 \\ \end{array} \right] = \sigma^2\boldsymbol{I}_n \ . \]
異方差指的是對於不同的樣本點,隨機干擾項的方差不再是常數,而是互不相同的。即如果 \(u\) 的方差隨 \(x\) 變化,那么稱隨機干擾項是具有異方差的。當異方差發生的時候,隨機干擾項的條件方差是關於解釋變量的函數:
\[{\rm Var}(u|X_1,X_2,...,X_k)=g(X_1,X_2,...X_k) \ . \]
用協方差矩陣表示為:
\[{\rm Var}(\boldsymbol{u}|\boldsymbol{X}) = \left[ \begin{array}{cccc} \sigma_1^2 & & & \\ & \sigma_2^2 & & \\ & & \ddots & \\ & & & \sigma_n^2 \\ \end{array} \right] = \sigma^2 \left[ \begin{array}{cccc} \omega_1 & & & \\ & \omega_2 & & \\ & & \ddots & \\ & & & \omega_n \\ \end{array} \right] = \sigma^2\boldsymbol\Omega \ . \]
這里的 \({\rm Var}(u_i) = \sigma_i^2\) ,下標 \(i\) 表示非常數,違背了 MLR.5。
用圖形表示為:

異方差的產生原因
(1) 模型中遺漏了某些重要的解釋變量
舉個例子比較容易理解。假設正確的計量模型是:
\[Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+u_i \ , \]
如果我們遺漏了解釋變量 \(X_{i2}\) ,估計的模型為:
\[Y_i=\beta_0+\beta_1X_{i1}+v_i \ , \]
當被遺漏的 \(X_{2i}\) 與 \(X_{i1}\) 具有呈現同方向或反方向的變化趨勢時, \(X_{2i}\) 隨 \(X_{i1}\) 的有規律的變化會體現在隨機干擾項 \(v_i\) 中。一般這種情況往往也會造成內生性的問題,我們在后面的章節進行介紹。
(2) 數據的測量誤差
樣本數據的觀測誤差有可能隨研究范圍的擴大而增加,或隨時間的推移逐步積累,也可能隨着觀測技術的提高而逐步減小。
(3) 截面數據中總體各單位的差異
通常認為,截面數據較時間序列數據更容易產生異方差。這是因為同一時點不同對象的差異,一般說來會大於同一對象不同時間的差異。不過,在時間序列數據發生較大變化的情況下,也可能出現比截面數據更嚴重的異方差。
(4) 一個或多個回歸解釋變量的分布是偏態(skewness)
例如:收入、財富和受教育水平的總體分布都是不均勻的分布。具體體現在大部分的收入和財富被少數人所擁有,受高等教育的精英也是少數等等。
(5) 模型的函數形式存在設定誤差
(6) 異常值
異方差的后果
\[\begin{aligned} {\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm Var}\left(\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\sigma^2\boldsymbol\Omega\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\boldsymbol\Omega\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &\neq\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \ . \end{aligned} \]
- \({\rm Var}(\hat{\beta_j})\) 非有效會造成一系列的影響:
- 不能用來構造置信區間和 \(t\) 統計量,使用大樣本容量也不能解決這個問題;
- 變量的顯著性檢驗失去意義;
- 模型的預測失效。
在這里我們利用排除其他解釋變量影響的方法簡單回顧一下同方差條件下的 \(t\) 統計量:
\[t=\frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2}{{\rm SST}_j(1-R_j^2)}}}=\frac{\hat\beta_j-\beta_j}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2\cdot\sigma^2}{{\rm SST}_j(1-R_j^2)\cdot\sigma^2}}}=\frac{\displaystyle\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2}{\sigma^2}}} \ , \]
其中分子服從標准正態分布,分母的平方乘以 \(n-k-1\) 服從自由度為 \(n-k-1\) 的 \(\chi^2\) 分布。
關於異方差下的 OLS 估計量的方差,我們也利用排除其他解釋變量影響的方法,通過如下推導可以發現問題:
\[{\rm Var}(\hat\beta_j|\boldsymbol{X})={\rm Var}\left(\beta_j+\left.\frac{\sum\limits_{i=1}^n\hat{r}_{ij}u_i}{\sum\limits_{i=1}^n \hat{r}_{ij}^2}\right|\boldsymbol{X}\right)=\frac{\sum\limits_{i=1}^n\hat{r}_{ij}^2\cdot{\rm Var}\left(u_i|\boldsymbol{X}\right)}{\left(\sum\limits_{i=1}^n\hat{r}_{ij}^2\right)^2} \]
由於違背了同方差假設, \({\rm Var}\left(\hat\beta_i|\boldsymbol{X}\right)\) 是一個很復雜的形式,無法得到准確的 OLS 估計量的方差。在這種情況下,原本用來計算 \(t\) 統計量的分子也不再服從標准正態分布,使得 \(t\) 檢驗失效。
異方差的檢驗方法
一般地,通過數理統計的方法檢驗異方差性,基本思路都是設原假設為不存在異方差性:
\[H_0:{\rm E}(u^2|x_1,x_2,...,x_k)=\sigma^2 \ . \]
這一點很容易理解,當我們構造檢驗統計量時,同方差原假設下的檢驗統計量往往具有良好的統計分布,便於進行假設檢驗。下面我們提出幾種檢驗異方差的方法。
圖示檢驗法
- 做 \(Y\) 對 \(X\) 的散點圖:方差描述的是隨機變量的取值相對於其均值的離散程度。因為被解釋變量 \(Y\) 與隨機誤差項 \(u\) 有相同的方差,所以利用分析 \(Y\) 與 \(X\) 的相關圖形,可以初略地看到 \(Y\) 的離散程度與 \(X\) 之間是否有相關關系。如果隨着 \(X\) 的增加,\(Y\) 的離散程度為逐漸增大(或減小)的變化趨勢,則認為存在遞增型(或遞減型)的異方差現象。
- 做殘差 \(e_i^2\) 對 \(X\) 的散點圖:適用於一元回歸模型,
- 如果 \(e_i^2\) 的離散程度不隨 \(X_i\) 變化,則表明不存在異方差;
- 如果 \(e_i^2\) 的離散程度隨 \(X_i\) 變化,則表明存在異方差。
Breusch-Pagan 檢驗
B-P 檢驗是一種較為常見的異方差的檢驗方法。檢驗是否存在異方差,即檢驗隨機誤差項的方差是否與模型的解釋變量相關。比較常見的就是和解釋變量的一次項具有某種線性關系。
假設需要檢驗的模型為:
\[Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+u_i \ , \]
B-P 檢驗的步驟如下:
將 \(Y\) 對 \(X_1,X_2,\cdots,X_k\) 回歸,得到估計值並計算擬合值 \(\hat{Y}\) 和殘差 \(e_i\) :
\[\hat{Y}_i=\hat\beta_0+\hat\beta_1X_{i1}+\hat\beta_2X_{i2}+\cdots+\hat\beta_kX_{ik} \ , \]
\[e_i=Y_i-\hat{Y}_i \ . \]
將 OLS 估計后的 \(e_i^2\) 對解釋變量的一次項做輔助回歸,得到估計值和可決系數 \(R_{e^2}^2\) 。
\[e_i^2=\delta_0+\delta_1X_{i1}+\delta_2X_{i2}+...+\delta_kX_{ik}+\varepsilon_i \ , \]
檢驗聯合假設 \(H_0:\delta_1=\delta_2=...=\delta_k=0\) ,可通過在約束條件下的受約束回歸檢驗或拉格朗日乘數檢驗進行:
計算 \(F\) 統計量,檢驗 \(p\) 值:
\[F=\frac{R_{e^2}^2/k}{(1-R_{e^2}^2)/(n-k-1)} \sim F(k,\,n-k-1) \ , \]
計算 \(LM\) 統計量,檢驗 \(p\) 值:
\[LM = n\cdot R_{e^2}^2 \sim \chi^2(k) \ . \]
White 檢驗
White 檢驗可以看成 B-P 檢驗的一種拓展,不需要關於異方差的任何先驗信息,只需要在大樣本的情況下,將 OLS 估計后的殘差平方 \(e_i^2\) 對常數、解釋變量、解釋變量的平方項及其交叉項等所構成一個輔助回歸,利用輔助回歸建立相應的檢驗統計量來判斷異方差性。 不僅能夠檢驗異方差的存在性,同時在多變量的情況下,還能判斷出是哪一個變量的何種函數形式引起的異方差。
我們以三元回歸模型為例,設需要檢驗的模型為:
\[Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\beta_3X_{i3}+u_i \ , \]
將 \(Y\) 對 \(X_1,X_2,X_3\) 回歸,得到估計值並計算擬合值 \(\hat{Y}\) 和殘差 \(e_i\) 后,建立輔助回歸模型:
\[\begin{aligned} e^2=&\delta_0+\delta_1X_{1}+\delta_2X_{2}+\delta_3X_{3}\\ &+\delta_4X_{1}^2+\delta_5X_{2}^2+\delta_6X_{3}^2\\ &+\delta_7X_{1}X_{2}+\delta_8X_{1}X_{3}+\delta_9X_{2}X_{3}+\varepsilon_i \ . \end{aligned} \]
檢驗聯合假設 \(H_0:\delta_1=\delta_2=...=\delta_9=0\) ,
計算 \(F\) 統計量,檢驗 \(p\) 值:
\[F=\frac{R_{e^2}^2/h}{(1-R_{e^2}^2)/(n-h-1)} \sim F(h,\,n-h-1) \ , \]
計算 \(LM\) 統計量,檢驗 \(p\) 值:
\[LM = n\cdot R_{e^2}^2 \sim \chi^2(h) \]
其中 \(n\) 為樣本容量,\(h\) 為輔助回歸的解釋變量個數(在三元回歸模型中,\(h=9\))。
簡化的 White 檢驗
我們在做 White 檢驗的時候需要跑一個很長的回歸,且隨着解釋變量的增多,自由度的損失嚴重,因此 While 檢驗可以做以下簡化:
\[e_i^2=\delta_0+\delta_1\hat{Y}_i+\delta_2\hat{Y}_i^2+\varepsilon_i \]
將用擬合值及其多項式代替所有的解釋變量,並檢驗聯合假設 \(H_0:\delta_1=\delta_2=0\) ,同理可用 \(F\) 統計量和 \(LM\) 統計量進行假設檢驗。這樣可以大大減少輔助回歸的長度和自由度的損失。
Park 檢驗和 Glejser 檢驗
這兩種檢驗的方式類似:由 OLS 法得到殘差,分別取平方、絕對值以及絕對值的對數,然后將這些新的變量分別對某些解釋變量回歸,根據回歸模型的顯著性和擬合優度來判斷是否存在異方差。
不僅能對異方差的存在進行判斷,而且還能對異方差隨某個解釋變量變化的函數形式進行診斷。一旦發現異方差,即知道其形式。但缺點是計算量較大,且該檢驗要求變量的觀測值為大樣本。
Park 檢驗:
\[e_i^2=f(X_{ij})+\varepsilon_i \]
Glejser 檢驗:
\[|e_i|=f(X_{ij})+\varepsilon_i \]
\[\ln|e_i|=f(X_{ij})+\varepsilon_i \]
這里的 \(e_i\) 仍然是原始回歸模型的殘差,函數 \(f(\cdot)\) 是部分解釋變量 \(X\) 的某種最佳函數形式。檢驗方式仍然是 \(F\) 檢驗和 \(LM\) 檢驗。
Goldfeld-Quanadt 檢驗
該檢驗的基本思想為:將樣本分為兩部分,然后分別對兩個樣本進行回歸,並計算兩個子樣的殘差平方和所構成的比值,以此為統計量來判斷是否存在異方差。但這一檢驗需要滿足兩個前提條件:
- 要求變量的觀測值為大樣本;
- 除了同方差假定不成立外,其它假定均滿足。
檢驗的具體做法如下:
- 排序:假設隨機擾動項的方差與某個解釋變量正相關,把全部觀測值按照此解釋變量的取值從小到大排序。
- 數據分組:將排列在中間的約 \(1/4\) 的觀察值刪除掉,記為 \(c\) ,再將剩余的分為兩個部分,每部分觀察值的個數為 \((n-c)/2\) 。
- 分別 OLS 回歸:用兩個子樣本分別估計回歸直線,並計算殘差平方和。分別用 \(n_2\) 和 \(n_1\) 表示兩組樣本,用 \({\rm SSR}_2=\sum\limits_{i=1}^{n_2}e_{2i}^2\) 和 \({\rm SSR}_1=\sum\limits_{i=1}^{n_1}e_{1i}^2\) 表示兩組樣本的殘差平方和。這里的 \(n_2=n_1=(n-c)/2\) 。
- 構造 \(F\) 統計量:在同方差假設下,兩組樣本方差應該相等,因此提出原假設 \(H_0:\sigma_1^2=\sigma_2^2\) ,並進行 \(F\) 檢驗:
\[F=\frac{{\rm SSR}_2/(n_2-k-1)}{{\rm SSR}_1/(n_1-k-1)}=\frac{{\rm SSR}_2}{{\rm SSR}_1}\sim F(n_2-k-1,\,n_1-k-1) \ . \]
該檢驗的缺點在於檢驗結果與選擇數據刪除的個數 \(c\) 的大小有關,且只能判斷異方差是否存在。
異方差的修正措施
異方差穩健的標准誤法
這里是我們第一次提出穩健的標准誤的概念,事實上穩健的標准誤有很多種,這里指的是 White 提出的針對異方差的情況采用的穩健的標准誤。主要思想是:仍采用 OLS 估計量,但修正其方差。
原理是當我們修正了 OLS 估計量的方差時,在大樣本條件下有:
\[t=\frac{\hat\beta_j-\beta_j}{{\rm robust\_se}(\hat\beta_j)}\overset{a}\sim \, N(0,\,1) \ , \]
這里 \(\displaystyle\overset{a}\sim\) 表示漸進服從,此時我們可以構造出合理的 \(t\) 統計量。這里說明一下,\(t\) 分布在自由度很大的時候可以近似看作標准正態分布。
那么如何來構造穩健的標准誤呢?White 提出用 OLS 估計的殘差的平方 \(e_i^2\) 作為相應 \(\sigma^2_i\) 的代表。具體操作如下:
在計算一元回歸模型的時候,\(\hat\beta_1\) 的方差可以有如下的計算公式:
\[{\rm Var}(\hat\beta_1)=\frac{\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2\sigma_i^2}{\left(\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2\right)^2} \ . \]
在同方差假定下,\(\sigma_i^2=\sigma^2\) ,我們可以用 \(\hat\sigma^2\) 代替 \(\sigma^2\) 計算標准誤。當出現異方差的情況下,我們用用 \(e_i^2\) 作為 \(\sigma_i^2\) 的估計計算的到穩健的方差:
\[{\rm robust}\_\widehat{\rm Var}(\hat\beta_1)=\frac{\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2e_i^2}{\left(\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)^2\right)^2} \ . \]
進而開方得到即可得到穩健的標准誤。多元回歸模型中,我們可以使用排除其他變量影響的方法計算 OLS 估計量的方差,利用同樣的處理方式也可以得到穩健的標准誤。
一般地,在小樣本下需要檢驗是否存在異方差性,在大樣本下直接匯報穩健的標准誤。
加權最小二乘法 WLS / 廣義最小二乘法 GLS
筆記的開篇我們假設了出現異方差情況時,隨機干擾項的方差-協方差矩陣的結構:
\[{\rm Var}(\boldsymbol{u}|\boldsymbol{X}) = \sigma^2 \left[ \begin{array}{cccc} \omega_1 & & & \\ & \omega_2 & & \\ & & \ddots & \\ & & & \omega_n \\ \end{array} \right] = \sigma^2\boldsymbol\Omega \ . \]
若 \(\boldsymbol\Omega\) 已知,我們可以對原模型進行變換,使之變成一個新的不存在異方差的模型,然后采用 OLS 估計其參數,變化過程如下:
\[\boldsymbol W = \boldsymbol\Omega^{-1} = \left[ \begin{array}{cccc} \dfrac{1}{\omega_1} & & & \\ & \dfrac{1}{\omega_2} & & \\ & & \ddots & \\ & & & \dfrac{1}{\omega_n} \\ \end{array} \right] = \left[ \begin{array}{cccc} \dfrac{1}{\sqrt{\omega_1}} & & & \\ & \dfrac{1}{\sqrt{\omega_2}} & & \\ & & \ddots & \\ & & & \dfrac{1}{\sqrt{\omega_n}} \\ \end{array} \right]^2= \boldsymbol{P}^{\rm T}\boldsymbol{P} \ , \]
其中 \(\boldsymbol W\) 是 \(\boldsymbol{\Omega}\) 的逆矩陣,是一個對稱正定矩陣,因此存在一可逆矩陣 \(\boldsymbol P\) 使得 \(\boldsymbol{W} = \boldsymbol{P}^{\rm T}\boldsymbol{P}\)。利用該可逆矩陣 \(\boldsymbol{P}\) 將模型變換為:
\[\boldsymbol{PY} = \boldsymbol{PX\beta} + \boldsymbol{P}\boldsymbol\mu \ \ \ \ \boldsymbol\longrightarrow \ \ \ \ \boldsymbol{Y}^{*} = \boldsymbol{X}^{*}\boldsymbol\beta + \boldsymbol{\mu}^{*} \]
用 OLS 估計新模型
\[\tilde{\boldsymbol\beta} = ({\boldsymbol{X}^{*}}^{\rm T}{\boldsymbol{X}^{*}})^{-1}{\boldsymbol{X}^{*}}^{\rm T}\boldsymbol{Y}^{*}=(\boldsymbol{X}^{\rm T}\boldsymbol{P}^{\rm T}\boldsymbol{P\boldsymbol{X}})^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{P}^{\rm T}\boldsymbol{P}\boldsymbol{Y}=(\boldsymbol{X}^{\rm T}\boldsymbol{W}\boldsymbol{X})^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{W}\boldsymbol{Y} \ . \]
這就是原模型的 WLS 估計量, 是無偏且有效的估計量。
可行的廣義最小二乘法 FGLS
若 \(\boldsymbol\Omega\) 未知,需要先估計 \(\sigma^2_i\) ,然后利用 \(\sigma^2_i\) 的估計值 \(\hat\sigma^2_i\) 建立加權的新模型,再用 OLS 估計新模型。假設部分解釋變量造成異方差,記為 \(Z_1, Z_2,\cdots,Z_p\) ,我們一般設定如下可能的計量模型:
\[\sigma_i^2=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+...+\alpha_pZ_{ip}+\nu_i \ , \]
\[\sigma_i=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+...+\alpha_pZ_{ip}+\nu_i \ , \]
\[\ln\sigma_i^2=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+...+\alpha_pZ_{ip}+\nu_i \ , \ \ \ \ (常見) \]
用回歸的殘差 \(e_i\) 代替 \(\sigma_i\) 進行上述 OLS 估計,獲得估計殘參數並計算出擬合值,將 \(e_i^2\) 的擬合值 \(\hat{e}_i^2\) 作為 \(\sigma_i^2\) 的估計值 \(\hat\sigma_i^2\) :
\[\hat{\sigma}_i^2=\hat{\alpha}_0+\hat{\alpha}_1Z_{i1}+\hat{\alpha}_2Z_{i2}+...+\hat{\alpha}_pZ_{ip} \ , \]
\[\hat{\sigma}_i^2=\left(\hat{\alpha}_0+\hat{\alpha}_1Z_{i1}+\hat{\alpha}_2Z_{i2}+...+\hat{\alpha}_pZ_{ip}\right)^2 \ , \]
\[\hat{\sigma}_i^2=\exp\left(\hat{\alpha}_0+\hat{\alpha}_1Z_{i1}+\hat{\alpha}_2Z_{i2}+...+\hat{\alpha}_pZ_{ip}\right) \ , \]
之后便可以利用 WLS 估計原模型的系數:
\[\frac{Y_i}{\hat{\sigma}_i}=\beta_0\frac{1}{\hat{\sigma}_i}+\beta_1\frac{X_{i1}}{\hat{\sigma}_i}+\beta_2\frac{X_{i2}}{\hat{\sigma}_i}+...+\beta_k\frac{X_{ik}}{\hat{\sigma}_i}+u_i \ . \]