計量經濟學復習筆記(四):多元線性回歸


一元線性回歸的解釋變量只有一個,但是實際的模型往往沒有這么簡單,影響一個變量的因素可能有成百上千個。我們會希望線性回歸模型中能夠考慮到這些所有的因素,自然就不能再用一元線性回歸,而應該將其升級為多元線性回歸。但是,有了一元線性回歸的基礎,討論多元線性回歸可以說是輕而易舉。

另外我們沒必要分別討論二元、三元等具體個數變量的回歸問題,因為在線性代數的幫助下,我們能夠統一討論對任何解釋變量個數的回歸問題。

1、多元線性回歸模型的系數求解

多元線性回歸模型是用\(k\)個解釋變量\(X_1,\cdots,X_k\)對被解釋變量\(Y\)進行線性擬合的模型,每一個解釋變量\(X_i\)之前有一個回歸系數\(\beta_i\),同時還應具有常數項\(\beta_0\),可以視為與常數\(X_0=1\)相乘,所以多元線性回歸模型為

\[Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1} \]

這里的\(\mu\)依然是隨機誤差項。從線性回歸模型中抽取\(n\)個樣本構成\(n\)個觀測,排列起來就是

\[\begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2} \]

其中\(X_{10}=X_{20}=\cdots=X_{n0}=1\)。大型方程組我們會使用矩陣表示,所以引入如下的矩陣記號。

\[{Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3} \]

在這些矩陣表示中注意幾點:首先,\(Y\)\(\mu\)在矩陣表示式中都是\(n\)維列向量,與樣本容量等長,在線性回歸模型中\(Y,\mu\)是隨機變量,而在矩陣表示中它們是隨機向量,盡管我們不在表示形式上加以區分,但我們應該根據上下文明確它們到底是什么意義;\(\beta\)\(k+1\)維列向量,其長度與\(Y,\mu\)沒有關系,這是因為\(\beta\)是依賴於變量個數的,並且加上了對應於常數項的系數(截距項)\(\beta_0\);最后,\(X\)是數據矩陣,且第一列都是1。在這些矩陣的定義下,多元線性回歸模型的觀測值們可以表示為

\[Y=X\beta+\mu.\tag{4.4} \]

我們的目標是求得\(\beta\)的估計\(\hat\beta\),與一元線性回歸一樣,雖然\(Y,X\)都是隨機變量,但我們需要的是給定\(X\)時的條件分布。此時依然使用OLS估計,設\(\beta\)的估計量為\(\hat\beta\),則殘差向量是\(e=Y-X\hat\beta\),殘差平方和為\(Q=e'e\)。為使殘差平方和最小,需要對\(\hat\beta\)求偏導,即

\[\begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5} \]

於是

\[X'X\hat\beta=X'Y,\tag{4.6} \]

\(X'X\)可逆,則

\[\hat\beta=(X'X)^{-1}X'Y.\tag{4.7} \]

這樣我們就得到了\(\beta\)的參數估計量\(\hat\beta\)。順帶一提,由於我們將\(Q\)表現為矩陣乘積的形式,所以對\(\hat\beta\)求偏導也能得到\(Q\)的最小值,事實上對\(\hat\beta\)求矩陣微商的過程,等價於對\(\hat\beta\)中的每一個分量\((\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)\)求偏導,然后將每一個偏導的結果按列排布,這樣令矩陣微商為0,就等價於每一個偏導數為0。這里用到的矩陣微商公式有以下兩個:

\[\frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8} \]

當然,我們不能忽略這樣一個事實:想要得到這樣的OLS估計量必須有\(X'X\)可逆,但是\(X'X\)在什么情況下可逆?注意到\(X\)是一個\(n\times(k+1)\)型矩陣,\(X'X\)是一個\(k+1\)階方陣,要使其可逆,則\(X'X\)滿秩,也就是\(r(X'X)=k+1\)。由於\(r(X'X)\le r(X)\le\min(n,k+1)\),所以\(X'X\)要滿秩,有以下的必要條件:

  1. \(n\ge k+1\),也就是樣本觀測數不小於\(k+1\)
  2. \(r(X)=k+1\),也就是\(X\)的列向量組必須線性無關。

現在,我們已經認識到\(X\)的列向量組應當無關,也就是\((X_1,\cdots,X_k)\)不線性相關這一基本假設需要被滿足。進一步地,我們應該開始認識線性回歸模型的基本假設了,我們所說的OLS估計量的優秀性質,全部依賴於線性回歸模型的基本假設,如果基本假設無法被滿足,我們的OLS估計量就會失去很多效果。

2、線性回歸模型的基本假設

在一元線性回歸模型中,我們只粗糙地提到了以下的假設:隨機誤差項條件零均值同方差、隨機誤差項條件序列不相關、任意隨機誤差項與解釋變量不相關,以及隨機誤差項服從條件正態分布。事實上,一元線性回歸模型的基本假設不止以上幾條,它與多元線性回歸模型的基本假設一致,有以下幾條。

  1. 回歸模型是正確假定的。

  2. 解釋變量\(X_1,\cdots,X_k\)在所抽取的樣本中具有變異性(獨立同分布),且不存在多重共線性。

  3. 隨機誤差項具有條件零均值性,即

    \[\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} \]

  4. 隨機誤差項具有條件同方差性與條件序列不相關性,即

    \[{\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. \]

  5. 隨機誤差項服從條件正態分布,即

    \[\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} \]

用矩陣符號表示,令\(X\)\(n\times (k+1)\)型數據矩陣(也可以視為\(k+1\)維行隨機向量,分情況而定),\(\mu=(\mu_1,\cdots,\mu_n)\),則

  1. \(r(X)=k+1\),相當於\(X\)列滿秩。
  2. \(\mathbb E(\mu|X)=0\),這里\(0\)\(n\)維列向量。
  3. \(\mathbb D(\mu|X)=\sigma^2I_n\),這里\(I_n\)\(n\)階單位陣。
  4. \(\mu|X\sim N_n(0,\sigma^2I_n)\)

現在我們要對這些基本假設作出解釋。

首先,無論是在一元線性回歸還是多元線性回歸,我們在假設\(\mu\)的分布時,總是強調“條件分布”,而不是簡單地說\(\mu\)是零均值同方差序列不相關的。應當如何理解這個條件分布?我們必須認識到,實際抽取樣本的過程中,\((Y,X)\)都是隨機變量,尤其是\(X\)實際上是作為隨機變量出現的,只是由於我們常常因為\(X\)是可以觀測的而將\(X\)作為常數處理。簡單舉個例子,假設一維隨機變量\(X\)服從如下的離散分布:

\[\mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12} \]

\((\mu,X)\)作為二維隨機向量處理,\(\mu\)始終與\(X\)數值相同,也就是\(X=1\)\(\mu=1\)\(X=-1\)\(\mu=-1\),則我們有

\[\mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13} \]

但是這個時候的\(\mu\)是否是條件零均值的?顯然不是,因為

\[\mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14} \]

顯然這樣的隨機誤差分布並不是我們想要的那種“隨機”,因為它實際上與\(X\)相關,並不是真正的隨機。我們想要的隨機是在任何\(X\)的水平下,\(\mu\)都具有同樣的分布,因此加入條件分布的約束是有必要的,理解條件分布的關鍵,就在於要將\(X\)作為隨機變量看待。

其次,我們要求回歸模型是正確假定的,這指的是我們要求總體確實具有與線性回歸函數的形式——否則我們用線性回歸模型擬合肯定不可能用樣本估計總體,因為總體回歸函數與樣本回歸函數甚至沒有相同的形式,更不用說相同的參數估計。

最后,我們要求\(\mathbb E(\mu|X)=0\),這包含了如下信息:

\[\mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15} \]

這也就說明\({\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0\),即\(\mu,X\)不存在任何形式的相關性。自然,其中包括了當時間指標相同時,有

\[\mathbb E(\mu_iX_i)=0.\tag{4.16} \]

這時候我們稱解釋變量\(X\)與隨機誤差\(\mu\)是同期不相關的,這是一個很重要的假定,至於它為什么重要,我們將在以后討論。

3、參數估計的性質

我們已經知道在滿足基本假設的前提下,一元線性回歸的OLS估計量擁有BLUE性質,其實多元線性回歸的OLS估計量也是如此,這也是我們引入前四條基本假設的原因之一。現在我們不討論BLUE性的證明,直接給出\(\hat\beta=(X'X)^{-1}(X'Y)\)是BLUE估計量的結論。

  1. \(\hat\beta\)\(Y\)的線性組合,也就是說\(\forall i=0,1,\cdots,k\)\(\hat\beta_i\)\(Y_1,\cdots,Y_n\)的線性組合。這一點是不言自明的,從\(\hat\beta\)的表達式就可以看出來。
  2. \(\hat\beta\)\(\beta\)的無偏估計量,這等價於\(\forall i=0,1,\cdots,k\)\(\hat\beta_i\)\(\beta_1\)的無偏估計量。
  3. \(\hat\beta\)\(\beta\)的所有線性無偏估計量中,方差最小的那個。

在一元線性回歸的過程中,\(\hat\beta_1,\hat\beta_0\)是最小方差的,這里的“最小”很好理解。而擴展到多元時,\(\hat\beta\)的方差是它的自協方差矩陣\(\mathbb D(\hat\beta)\),在這種意義下的最小方差是什么,有必要說明一下。

對於兩個非負定矩陣\(A,B\),如果存在另一個非負定矩陣\(C\)使得\(A=B+C\),則稱\(A\ge B\)——由此構建了非負定矩陣之間的大小關系。不難看出,如果\(A\ge B\),則對於每一個對角元素都有\(a_{ii}\ge b_{ii}\),因為如果存在某個\(i\)使得\(a_{ii}<b_{ii}\),則令\(C=A-B\)\(c_{ii}<0\),取向量\(e_i\)(第\(i\)個元素為1,其他元素為0的列向量)可以得到

\[e_i'Ce_i=c_{ii}<0,\tag{4.17} \]

這就說明\(C\)不是一個非負定矩陣,矛盾。

因此,這里\(\hat\beta\)的最小方差性,意味着\(\mathbb D(\hat\beta)\)在非負定意義上最小,自然也意味着對於每一個\(\hat\beta_i\),它都是線性無偏估計里方差最小的。

除了 BLUE性,OLS估計量還有一個很重要的性質——一致性,而我們常常忽略這個性質的重要意義。導致我們忽略一致性的原因,一個是BLUE里不包含一致性,而好多人僅僅記住了OLS估計量的BLUE性;另一個是一致性與BLUE性表現性質不同,一致性是大樣本性質,BLUE性是小樣本性質。什么是大樣本性質?並不是說樣本量很大的性質,就是大樣本性質。大樣本性質與小樣本性質的本質不同在於,大樣本性質包含着樣本容量\(n\to \infty\)的趨勢,只要是\(n\)趨於無窮能表現出來的性質都是大樣本性質。

回到一致性上,OLS估計量的一致性指的是

\[\hat\beta\stackrel {P}\to \beta,\tag{4.18} \]

\(\hat\beta\)以概率收斂於\(\beta\)。稍作翻譯,這個式子的意義是\(\forall \varepsilon>0,i=0,1,\cdots,k\)

\[\lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19} \]

如果還是不了解一致性有什么意義,可以看下面的例子。現在我們想對某個線性回歸模型進行參數估計,並且希望能達到0.001的精度,也就是每一個參數與真值的偏離值超過\(\varepsilon=0.001\)的概率都小於任意給定的置信水平\(\alpha\)。顯然,具有一致性的估計量可以做到這一點,因為給定了精度,我們只要通過增加抽取的樣本,參數的估計量就會自動調整,並且一定是向着接近真值的方向靠近。如果某個參數估計量不具有一致性,即使你抽取再多的樣本都沒法達到給定的精度,這就是一致性的重要意義。

因此,我們的參數估計量具有線性性、無偏性、最小方差性(有效性)以及一致性,后三個的證明,我們將在基本假設不能滿足的情況下給出,從而向你展示每一個基本假設都具有什么樣的重要意義,不滿足這些基本假設會有什么樣的嚴重后果。最后,在正態性、線性性約束下,我們很容易知道\(\hat\beta\)一定服從多元正態分布,所以只需要求得其均值方差即可。

無偏性保證了

\[\mathbb E(\hat\beta)=\beta,\tag{4.20} \]

關於方差,我們也在這里直接給出(而不給出證明,因為這依賴於基本假設)。

\[\mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21} \]

從而

\[\hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22} \]

自然有

\[\hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23} \]

這樣,我們就得到了每一個OLS估計量的分布,自然地可以用它進行區間估計與假設檢驗。

4、參數的區間估計和假設檢驗

與一元線性回歸問題一樣,我們需要考慮的是隨機誤差項方差\(\sigma^2\)的估計,而且我們依然會使用殘差平方和\({\rm RSS}\)來估計方差。這里,我們給出一個\(\sigma^2\)的無偏估計的證明。

注意到\(e=Y-X\hat\beta\),所以

\[\begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24} \]

這里要注意的是,不能夠直接把\((X'X)^{-1}\)拆開成\(X^{-1}(X')^{-1}\),因為\(X,X'\)都不是方陣,不存在逆矩陣。對其求期望,就有

\[\begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25} \]

對上面的式子需要作幾點聲明。第一個等號成立,是將\(Y\)\(X\beta+\mu\)替代后利用\(\mathbb E(\mu X)=0\)得到的;第二個等號成立,是因為第一部分代入計算后顯然等於0,第二部分是一個\(1\times 1\)矩陣,其跡等於自身;第三個等號成立,是因為跡運算滿足交換律:

\[{\rm tr}(AB)={\rm tr}(BA).\tag{4.26} \]

第四個等號成立,則是將\(\mathbb E(\mu'\mu)=\sigma^2\)替換掉期望后將兩部分拆開;第五個等號成立再次運用了跡運算的交換律;第六個等號需要格外注意,我們這里的單位陣\(I\)是出現於\(Y'Y=Y'IY\)\((4.24)\),所以是\(n\)階的;而\(X'X\)是一個\(k+1\)階方陣,所以\(X'X(X'X)^{-1}=I\),這里的\(I\)\(k+1\)階單位陣。

所以現在,我們得到了\(\sigma^2\)的無偏估計:

\[\hat\sigma^2=\frac{e'e}{n-k-1}. \]

然后,就可以代入\(\hat\beta\)的分布,構造出\(t\)樞軸量,從而構造出每一個\(\hat\beta_i\)的置信區間。另外,要檢驗某個變量是否顯著(對回歸有效果),也就是檢驗變量\(X_i\)的系數\(\beta_i\)是否為0,也可以利用樞軸量計算p-value,完成假設檢驗。這些步驟與一元線性回歸的一致,這里就不再贅述。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM