一元線性回歸的解釋變量只有一個,但是實際的模型往往沒有這么簡單,影響一個變量的因素可能有成百上千個。我們會希望線性回歸模型中能夠考慮到這些所有的因素,自然就不能再用一元線性回歸,而應該將其升級為多元線性回歸。但是,有了一元線性回歸的基礎,討論多元線性回歸可以說是輕而易舉。
另外我們沒必要分別討論二元、三元等具體個數變量的回歸問題,因為在線性代數的幫助下,我們能夠統一討論對任何解釋變量個數的回歸問題。
1、多元線性回歸模型的系數求解
多元線性回歸模型是用\(k\)個解釋變量\(X_1,\cdots,X_k\)對被解釋變量\(Y\)進行線性擬合的模型,每一個解釋變量\(X_i\)之前有一個回歸系數\(\beta_i\),同時還應具有常數項\(\beta_0\),可以視為與常數\(X_0=1\)相乘,所以多元線性回歸模型為
這里的\(\mu\)依然是隨機誤差項。從線性回歸模型中抽取\(n\)個樣本構成\(n\)個觀測,排列起來就是
其中\(X_{10}=X_{20}=\cdots=X_{n0}=1\)。大型方程組我們會使用矩陣表示,所以引入如下的矩陣記號。
在這些矩陣表示中注意幾點:首先,\(Y\)和\(\mu\)在矩陣表示式中都是\(n\)維列向量,與樣本容量等長,在線性回歸模型中\(Y,\mu\)是隨機變量,而在矩陣表示中它們是隨機向量,盡管我們不在表示形式上加以區分,但我們應該根據上下文明確它們到底是什么意義;\(\beta\)是\(k+1\)維列向量,其長度與\(Y,\mu\)沒有關系,這是因為\(\beta\)是依賴於變量個數的,並且加上了對應於常數項的系數(截距項)\(\beta_0\);最后,\(X\)是數據矩陣,且第一列都是1。在這些矩陣的定義下,多元線性回歸模型的觀測值們可以表示為
我們的目標是求得\(\beta\)的估計\(\hat\beta\),與一元線性回歸一樣,雖然\(Y,X\)都是隨機變量,但我們需要的是給定\(X\)時的條件分布。此時依然使用OLS估計,設\(\beta\)的估計量為\(\hat\beta\),則殘差向量是\(e=Y-X\hat\beta\),殘差平方和為\(Q=e'e\)。為使殘差平方和最小,需要對\(\hat\beta\)求偏導,即
於是
若\(X'X\)可逆,則
這樣我們就得到了\(\beta\)的參數估計量\(\hat\beta\)。順帶一提,由於我們將\(Q\)表現為矩陣乘積的形式,所以對\(\hat\beta\)求偏導也能得到\(Q\)的最小值,事實上對\(\hat\beta\)求矩陣微商的過程,等價於對\(\hat\beta\)中的每一個分量\((\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)\)求偏導,然后將每一個偏導的結果按列排布,這樣令矩陣微商為0,就等價於每一個偏導數為0。這里用到的矩陣微商公式有以下兩個:
當然,我們不能忽略這樣一個事實:想要得到這樣的OLS估計量必須有\(X'X\)可逆,但是\(X'X\)在什么情況下可逆?注意到\(X\)是一個\(n\times(k+1)\)型矩陣,\(X'X\)是一個\(k+1\)階方陣,要使其可逆,則\(X'X\)滿秩,也就是\(r(X'X)=k+1\)。由於\(r(X'X)\le r(X)\le\min(n,k+1)\),所以\(X'X\)要滿秩,有以下的必要條件:
- \(n\ge k+1\),也就是樣本觀測數不小於\(k+1\);
- \(r(X)=k+1\),也就是\(X\)的列向量組必須線性無關。
現在,我們已經認識到\(X\)的列向量組應當無關,也就是\((X_1,\cdots,X_k)\)不線性相關這一基本假設需要被滿足。進一步地,我們應該開始認識線性回歸模型的基本假設了,我們所說的OLS估計量的優秀性質,全部依賴於線性回歸模型的基本假設,如果基本假設無法被滿足,我們的OLS估計量就會失去很多效果。
2、線性回歸模型的基本假設
在一元線性回歸模型中,我們只粗糙地提到了以下的假設:隨機誤差項條件零均值同方差、隨機誤差項條件序列不相關、任意隨機誤差項與解釋變量不相關,以及隨機誤差項服從條件正態分布。事實上,一元線性回歸模型的基本假設不止以上幾條,它與多元線性回歸模型的基本假設一致,有以下幾條。
-
回歸模型是正確假定的。
-
解釋變量\(X_1,\cdots,X_k\)在所抽取的樣本中具有變異性(獨立同分布),且不存在多重共線性。
-
隨機誤差項具有條件零均值性,即
\[\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} \] -
隨機誤差項具有條件同方差性與條件序列不相關性,即
\[{\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. \] -
隨機誤差項服從條件正態分布,即
\[\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} \]
用矩陣符號表示,令\(X\)為\(n\times (k+1)\)型數據矩陣(也可以視為\(k+1\)維行隨機向量,分情況而定),\(\mu=(\mu_1,\cdots,\mu_n)\),則
- \(r(X)=k+1\),相當於\(X\)列滿秩。
- \(\mathbb E(\mu|X)=0\),這里\(0\)是\(n\)維列向量。
- \(\mathbb D(\mu|X)=\sigma^2I_n\),這里\(I_n\)是\(n\)階單位陣。
- \(\mu|X\sim N_n(0,\sigma^2I_n)\)。
現在我們要對這些基本假設作出解釋。
首先,無論是在一元線性回歸還是多元線性回歸,我們在假設\(\mu\)的分布時,總是強調“條件分布”,而不是簡單地說\(\mu\)是零均值同方差序列不相關的。應當如何理解這個條件分布?我們必須認識到,實際抽取樣本的過程中,\((Y,X)\)都是隨機變量,尤其是\(X\)實際上是作為隨機變量出現的,只是由於我們常常因為\(X\)是可以觀測的而將\(X\)作為常數處理。簡單舉個例子,假設一維隨機變量\(X\)服從如下的離散分布:
將\((\mu,X)\)作為二維隨機向量處理,\(\mu\)始終與\(X\)數值相同,也就是\(X=1\)時\(\mu=1\),\(X=-1\)時\(\mu=-1\),則我們有
但是這個時候的\(\mu\)是否是條件零均值的?顯然不是,因為
顯然這樣的隨機誤差分布並不是我們想要的那種“隨機”,因為它實際上與\(X\)相關,並不是真正的隨機。我們想要的隨機是在任何\(X\)的水平下,\(\mu\)都具有同樣的分布,因此加入條件分布的約束是有必要的,理解條件分布的關鍵,就在於要將\(X\)作為隨機變量看待。
其次,我們要求回歸模型是正確假定的,這指的是我們要求總體確實具有與線性回歸函數的形式——否則我們用線性回歸模型擬合肯定不可能用樣本估計總體,因為總體回歸函數與樣本回歸函數甚至沒有相同的形式,更不用說相同的參數估計。
最后,我們要求\(\mathbb E(\mu|X)=0\),這包含了如下信息:
這也就說明\({\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0\),即\(\mu,X\)不存在任何形式的相關性。自然,其中包括了當時間指標相同時,有
這時候我們稱解釋變量\(X\)與隨機誤差\(\mu\)是同期不相關的,這是一個很重要的假定,至於它為什么重要,我們將在以后討論。
3、參數估計的性質
我們已經知道在滿足基本假設的前提下,一元線性回歸的OLS估計量擁有BLUE性質,其實多元線性回歸的OLS估計量也是如此,這也是我們引入前四條基本假設的原因之一。現在我們不討論BLUE性的證明,直接給出\(\hat\beta=(X'X)^{-1}(X'Y)\)是BLUE估計量的結論。
- \(\hat\beta\)是\(Y\)的線性組合,也就是說\(\forall i=0,1,\cdots,k\),\(\hat\beta_i\)是\(Y_1,\cdots,Y_n\)的線性組合。這一點是不言自明的,從\(\hat\beta\)的表達式就可以看出來。
- \(\hat\beta\)是\(\beta\)的無偏估計量,這等價於\(\forall i=0,1,\cdots,k\),\(\hat\beta_i\)是\(\beta_1\)的無偏估計量。
- \(\hat\beta\)是\(\beta\)的所有線性無偏估計量中,方差最小的那個。
在一元線性回歸的過程中,\(\hat\beta_1,\hat\beta_0\)是最小方差的,這里的“最小”很好理解。而擴展到多元時,\(\hat\beta\)的方差是它的自協方差矩陣\(\mathbb D(\hat\beta)\),在這種意義下的最小方差是什么,有必要說明一下。
對於兩個非負定矩陣\(A,B\),如果存在另一個非負定矩陣\(C\)使得\(A=B+C\),則稱\(A\ge B\)——由此構建了非負定矩陣之間的大小關系。不難看出,如果\(A\ge B\),則對於每一個對角元素都有\(a_{ii}\ge b_{ii}\),因為如果存在某個\(i\)使得\(a_{ii}<b_{ii}\),則令\(C=A-B\),\(c_{ii}<0\),取向量\(e_i\)(第\(i\)個元素為1,其他元素為0的列向量)可以得到
這就說明\(C\)不是一個非負定矩陣,矛盾。
因此,這里\(\hat\beta\)的最小方差性,意味着\(\mathbb D(\hat\beta)\)在非負定意義上最小,自然也意味着對於每一個\(\hat\beta_i\),它都是線性無偏估計里方差最小的。
除了 BLUE性,OLS估計量還有一個很重要的性質——一致性,而我們常常忽略這個性質的重要意義。導致我們忽略一致性的原因,一個是BLUE里不包含一致性,而好多人僅僅記住了OLS估計量的BLUE性;另一個是一致性與BLUE性表現性質不同,一致性是大樣本性質,BLUE性是小樣本性質。什么是大樣本性質?並不是說樣本量很大的性質,就是大樣本性質。大樣本性質與小樣本性質的本質不同在於,大樣本性質包含着樣本容量\(n\to \infty\)的趨勢,只要是\(n\)趨於無窮能表現出來的性質都是大樣本性質。
回到一致性上,OLS估計量的一致性指的是
即\(\hat\beta\)以概率收斂於\(\beta\)。稍作翻譯,這個式子的意義是\(\forall \varepsilon>0,i=0,1,\cdots,k\),
如果還是不了解一致性有什么意義,可以看下面的例子。現在我們想對某個線性回歸模型進行參數估計,並且希望能達到0.001的精度,也就是每一個參數與真值的偏離值超過\(\varepsilon=0.001\)的概率都小於任意給定的置信水平\(\alpha\)。顯然,具有一致性的估計量可以做到這一點,因為給定了精度,我們只要通過增加抽取的樣本,參數的估計量就會自動調整,並且一定是向着接近真值的方向靠近。如果某個參數估計量不具有一致性,即使你抽取再多的樣本都沒法達到給定的精度,這就是一致性的重要意義。
因此,我們的參數估計量具有線性性、無偏性、最小方差性(有效性)以及一致性,后三個的證明,我們將在基本假設不能滿足的情況下給出,從而向你展示每一個基本假設都具有什么樣的重要意義,不滿足這些基本假設會有什么樣的嚴重后果。最后,在正態性、線性性約束下,我們很容易知道\(\hat\beta\)一定服從多元正態分布,所以只需要求得其均值方差即可。
無偏性保證了
關於方差,我們也在這里直接給出(而不給出證明,因為這依賴於基本假設)。
從而
自然有
這樣,我們就得到了每一個OLS估計量的分布,自然地可以用它進行區間估計與假設檢驗。
4、參數的區間估計和假設檢驗
與一元線性回歸問題一樣,我們需要考慮的是隨機誤差項方差\(\sigma^2\)的估計,而且我們依然會使用殘差平方和\({\rm RSS}\)來估計方差。這里,我們給出一個\(\sigma^2\)的無偏估計的證明。
注意到\(e=Y-X\hat\beta\),所以
這里要注意的是,不能夠直接把\((X'X)^{-1}\)拆開成\(X^{-1}(X')^{-1}\),因為\(X,X'\)都不是方陣,不存在逆矩陣。對其求期望,就有
對上面的式子需要作幾點聲明。第一個等號成立,是將\(Y\)用\(X\beta+\mu\)替代后利用\(\mathbb E(\mu X)=0\)得到的;第二個等號成立,是因為第一部分代入計算后顯然等於0,第二部分是一個\(1\times 1\)矩陣,其跡等於自身;第三個等號成立,是因為跡運算滿足交換律:
第四個等號成立,則是將\(\mathbb E(\mu'\mu)=\sigma^2\)替換掉期望后將兩部分拆開;第五個等號成立再次運用了跡運算的交換律;第六個等號需要格外注意,我們這里的單位陣\(I\)是出現於\(Y'Y=Y'IY\)的\((4.24)\),所以是\(n\)階的;而\(X'X\)是一個\(k+1\)階方陣,所以\(X'X(X'X)^{-1}=I\),這里的\(I\)是\(k+1\)階單位陣。
所以現在,我們得到了\(\sigma^2\)的無偏估計:
然后,就可以代入\(\hat\beta\)的分布,構造出\(t\)樞軸量,從而構造出每一個\(\hat\beta_i\)的置信區間。另外,要檢驗某個變量是否顯著(對回歸有效果),也就是檢驗變量\(X_i\)的系數\(\beta_i\)是否為0,也可以利用樞軸量計算p-value,完成假設檢驗。這些步驟與一元線性回歸的一致,這里就不再贅述。
