計量經濟學復習筆記(二):一元線性回歸(下)


回顧上文,我們通過OLS推導出了一元線性回歸的兩個參數估計,得到了以下重要結論:

\[\hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2},\quad \hat\beta_0=\bar Y-\hat\beta_1\bar X. \]

注意總體回歸模型是\(Y=\beta_0+\beta_1X+\mu\),同時我們還假定了\(\mu\sim N(0,\sigma^2)\),這使得整個模型都具有正態性。這種正態性意味着許多,我們能用數理統計的知識得到點估計的優良性質,完成區間估計、假設檢驗等,本文就來詳細討論上述內容。

1、BLUE

我們選擇OLS估計量作為一元線性回歸的參數估計量,最主要的原因就是它是最小方差線性無偏估計(Best Linear Unbiased Estimator),這意味着它們是:

  1. 線性的。
  2. 無偏的。
  3. 最小方差的。

不過,光給你這三個詞,你可能會對定義有所困擾——比如,關於什么線性?又關於什么是無偏的?我們接下來就對OLS估計量的BLUE性詳細討論,包括簡單證明。原本我認為,證明在后面再給出會更合適,引入也更順暢,但是我們接下來要討論的許多,都有賴於OLS估計量的BLUE性,因此我還是決定將這部分內容放在這里。

首先是線性性,它指的是關於觀測值\(Y_i\)線性,這有什么意義呢?注意到,在之前的討論中,我們總討論在給定\(X\)的取值狀況下的其他信息,如\(\mu\)的條件期望、方差協方差等,因此我們往往會在這部分的討論中將\(X\)視為常數(而不是隨機變量)看待,這會帶來一些好處。而因為\(\mu\sim N(0,\sigma^2)\)\(\mu_i\)是從\(\mu\)中抽取的簡單隨機樣本,且\(\mu_i\)\(X_i\)無關,所以由正態分布的性質,有

\[Y_i|X_i\sim N(\beta_0+\beta_1X_i,\sigma^2). \]

實際上,由於參數真值\(\beta_1,\beta_1\)是常數,所以每一個\(Y_i\)在給定了\(X_i\)的水平下,都獨立地由\(\mu_i\)完全決定,而\(\mu_i\)序列不相關(在正態分布的情況下獨立),所以\(Y_i\)之間也相互獨立。這樣,如果有一個統計量是\(Y_i\)的線性組合,那么由正態分布的可加性,這個統計量就自然服從正態分布,從而我們可以很方便地對其進行參數估計、假設檢驗等。

所以現在我們來驗證\(\hat\beta_0,\hat\beta_1\)\(Y_i\)的線性組合,先從比較容易處理的\(\hat\beta_1\)開始,我們已經算出了

\[\hat\beta_1=\frac{\sum x_iy_i}{\sum x_i^2}, \]

為了在這個式子中出現\(Y_i\),只要把\(y_i\)打開就行了,也就是

\[\hat\beta_1=\frac{\sum x_i(Y_i-\bar Y)}{\sum x_i^2}=\frac{\sum x_i Y_i-\bar Y\sum x_i}{\sum x_i^2}. \]

注意到\(\sum x_i=\sum(X_i-\bar X)=0\),所以有

\[\hat\beta_1=\sum_{i=1}^n\frac{x_i}{\sum x_i^2}Y_i\xlongequal{def}\sum_{i=1}^nk_iY_i,\quad k_i=\frac{x_i}{\sum x_i^2}. \]

這就將\(\hat\beta_1\)表示成了\(Y_i\)的線性組合。同理對於\(\hat\beta_0\),由於

\[\hat\beta_0=\bar Y-\bar X\hat \beta_1=\sum_{i=1}^n\frac{Y_i}n-\bar X\sum_{i=1}^nk_iY_i=\sum_{i=1}^n\left(\frac1n-\bar Xk_i \right)Y_i\xlongequal{def}\sum_{i=1}^nw_iY_i. \]

所以\(\hat\beta_0\)也是\(Y_i\)的線性組合。進一步地由於\(Y_i\)獨立地服從正態分布,所以\(\hat\beta_1,\hat\beta_0\)也服從正態分布。

無偏性指的是\(\hat\beta_0,\hat\beta_1\)\(\beta_0,\beta_1\)的無偏估計——理解概念,\(\beta_0\)\(\beta_1\)是總體回歸函數中的參數,在給定問題的情形下是一個待估參數,因此也是常數。我們已經驗證了\(\hat\beta_0,\hat\beta_1\)都是獨立正態分布\(Y_i\)的線性組合,因此它們的均值就很好求得,基於\(Y_i|X_i\sim N(\beta_0+\beta_1X_i,\sigma^2)\)的事實,有

\[\mathbb E(\hat\beta_1)=\sum_{i=1}^n\frac{x_i\mathbb E(Y_i)}{\sum x_i^2}=\sum_{i=1}^n\frac{x_i(\beta_0+\beta_1X_i)}{\sum x_i^2}=\frac{\beta_0\sum x_i}{\sum x_i^2}+\frac{\beta_1\sum x_iX_i}{\sum x_i^2},\\ \mathbb E(\hat\beta_0)=\sum_{i=1}^n\left(\frac1n-\frac{\bar Xx_i}{\sum x_i^2} \right)(\beta_0+\beta_1X_i)=\beta_0+\beta_1\bar X-\beta_1\bar X\frac{\sum x_iX_i}{\sum x_i^2}, \]

由於\(\sum x_iX_i=\sum x_i(x_i+\bar X)=\sum x_i^2+\bar X\sum x_i=\sum x_i^2\)\(\sum x_i=0\),所以

\[\mathbb E(\hat\beta_1)=\beta_1,\quad \mathbb E(\hat\beta_0)=\beta_0. \]

這里,我們得到了參數估計量\(\hat\beta_1,\hat\beta_0\)的均值,說明了它們是無偏估計。

最后最小方差性,指的是在所有線性無偏估計中,參數估計量\(\hat\beta_1,\hat\beta_0\)是方差最小的(注意線性無偏估計的限定條件)。為證明\(\hat\beta_1\)是最小方差的,我們可以另外構造一個線性無偏估計量,記作

\[\hat\beta_1^*=\sum_{i=1}^n(k_i+d_i)Y_i=\hat\beta_1+\sum_{i=1}^nd_iY_i, \]

無偏性要求使得

\[\mathbb E\left(\sum_{i=1}^n d_iY_i\right)=\sum_{i=1}^nd_i(\beta_0+\beta_1X_i)=0, \]

\(\beta_0,\beta_1\)的未知性,我們必須保證\(\sum d_i=\sum d_iX_i=0\),也就是\(\sum d_i(X_i-\bar X)=\sum d_ix_i=0\)。所以

\[\begin{aligned} \mathbb D(\hat\beta_1^*)=&\mathbb D\left(\hat\beta_1+\sum_{i=1}^nd_iY_i \right)\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2{\rm Cov}\left(\sum_{i=1}^nk_iY_i,\sum_{i=1}^nd_iY_i \right)\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2\sigma^2\sum_{i=1}^nk_id_i\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+2\sigma^2\frac{\sum x_id_i}{\sum x_i^2}\\ =&\mathbb D(\hat\beta_1)+\mathbb D\left(\sum_{i=1}^nd_iY_i \right)+0\\ \ge& \mathbb D(\hat\beta_1). \end{aligned} \]

同理,為證明\(\hat\beta_0\)是最小方差的,同樣構造一個\(\hat\beta_0^*=\sum(w_i+d_i)Y_i\),無偏性要求也會使得\(\sum w_id_i=0\),仿照\(\hat\beta_1\)的步驟就證明了\(\mathbb D(\hat\beta_0^*)\ge \mathbb D(\hat\beta)\)

由線性性,我們還可以計算出參數估計量的方差,因為我們要用\(\hat\beta_1\)\(\hat\beta_0\)估計真值\(\beta_1,\beta_0\),既然它們是無偏的,它們的方差越小,估計結果就越接近我們想要的真值,因此計算它們的方差具有重要意義。

\[\begin{aligned} \mathbb D(\hat\beta_1)=&\sigma^2\sum k_i^2=\sigma^2\sum\frac{x_i^2}{(\sum x_i^2)^2}=\frac{\sigma^2}{\sum x_i^2}.\\ \mathbb D(\hat\beta_0)=&\sigma^2\sum w_i^2\\ =&\sigma^2\sum\left(\frac1n-\bar Xk_i \right)^2\\ =&\sigma^2\sum\left(\frac1{n^2}-\frac{2\bar Xk_i}{n}+\bar X^2k_i^2 \right)\\ =&\sigma^2\left(\frac1n+\frac{\bar X^2}{\sum x_i^2} \right)\\ =&\frac{\sum x_i^2+n\bar X^2}{n\sum x_i^2}\sigma^2\\ =&\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2. \end{aligned} \]

它們的方差都隨着分母——自變量的離差平方和的增大而增大,這表明我們的樣本容量越大,估計值就會有越高的精度。

2、參數分布與區間估計

結合正態性假定,我們已經確定了參數估計量的均值、方差,就得到了其分布:

\[\hat\beta_1\sim N\left(\beta_1,\frac{\sigma^2}{\sum x_i^2} \right),\\ \hat\beta_0\sim N\left(\beta_0,\frac{\sum X_i^2}{n\sum x_i^2}\sigma^2 \right). \]

得到了參數分布以后,我們是不是就可以對參數值給出區間估計了呢?事實上,我們還缺一個關鍵的參數——隨機誤差方差\(\sigma^2\),由於它是未知的,我們還是沒法得知方差的具體值,也就不能得到參數的真實分布。因此,我們需要找到一個\(\sigma^2\)的無偏估計。

一個很自然的想法是,用殘差項\(e\)作為\(\mu\)的估計,進而估計出\(\mu\)的唯一參數\(\sigma^2\),因此先探究\(e\)的分布。由於

\[e_i=Y_i-(\hat\beta_0+\hat\beta_1X_i)=(\beta_0-\hat\beta_0)+(\beta_1-\hat\beta_1)X_i+\mu_i, \]

所以看起來\(e_i\)也是一系列正態分布的線性組合,但我們是否能得到\(e\)服從(條件)正態分布的結論?可以,但並不是直接\(\beta_0,\beta_1\)的直接加和,因為\(\beta_0\)\(\beta_1\)的獨立性還沒有被驗證,不要忘了,只有獨立正態分布的線性組合才服從正態分布。我們依然可以把\(e_i\)看成獨立正態分布的線性組合,因為\(\hat\beta_0,\hat\beta_1\)都是\(Y_i\)的線性組合,進一步是各個\(\mu_i\)的線性組合。

事實上,我們還缺少一些關鍵性的條件:\(\hat\beta_0\)\(\hat\beta_1\)的協方差,還有\(\hat\beta_0,\hat\beta_1\)\(\mu_i\)的協方差。我們可以稍作計算,得到

\[\begin{aligned} {\rm Cov}(\hat\beta_0,\hat\beta_1)=&{\rm Cov}\left(\sum_{i=1}^nw_iY_i,\sum_{i=1}^nk_iY_i \right)\\ =&\sigma^2\sum w_ik_i\\ =&\sigma^2\sum\left(\frac1n-\bar X k_i \right)k_i\\ =&-\sigma^2\bar X\sum k_i^2\\ =&-\frac{\sigma^2\bar X}{\sum x_i^2}.\\ {\rm Cov}(\hat\beta_1,\mu_i) =&k_i\sigma^2=\frac{x_i\sigma^2}{\sum x_i^2},\\ {\rm Cov}(\hat\beta_0,\mu_i) =&w_i\sigma^2=\left(\frac1n-\bar Xk_i \right)\sigma^2=\frac{\sum x_i^2-n\bar Xx_i}{n\sum x_i^2}\sigma^2. \end{aligned} \]

有了這些,我們已經可以計算\(e_i\)的分布,進而用單個\(e_i\)得到關於\(\sigma^2\)的估計,容易看出,由於均值項都被抵消,最后得到的\(e_i\)一定是零均值正態的。但只用一個殘差是無法估計\(\sigma^2\)的,數理統計的知識告訴我們,為了充分利用樣本信息,我們應該使用充分統計量作為估計量。容易知道,\(\boldsymbol e=(e_1,\cdots,e_n)\)服從多維正態分布,但各分量之間相互獨立,因此可以用聯合密度導出充分統計量。忽略推導細節,這里的充分統計量是\(\sum e_i^2\),因此我們應該計算\(\sum e_i^2\)的分布,從而給出\(\sigma^2\)的估計量,事實上,可以證明

\[\frac{\sum e_i^2}{\sigma^2}\sim \chi^2(n-2). \]

證明過程與證明正態分布的樣本方差服從卡方分布類似,對於計量經濟學略顯繁瑣,如果需要,我將在后面補充這個命題的證明。現在我們知道了\(\sum e_i^2\)的分布,自然可以計算均值為\(\sigma^2(n-2)\),所以我們往往會用如下估計量作為\(\sigma^2\)的無偏估計:

\[\hat\sigma^2=\frac{\sum e_i^2}{n-2},\quad \frac{(n-2)\hat\sigma^2}{\sigma^2}\sim \chi^2(n-2). \]

此時再來考慮\(\hat\beta_0,\hat\beta_1\)的參數估計問題就簡單很多了,因為我們使用卡方統計量來替代方差真值,所以相應的區間估計應當基於\(t\)分布構造樞軸量。對於\(\hat\beta_1\),有

\[\hat\beta_1\sim N\left(\beta_1,\frac{\sigma^2}{\sum x_i^2} \right)\\ \frac{\hat\beta_1-\beta_1}{\sqrt{\frac{\hat\sigma^2}{\sum x_i^2}}}=\frac{\frac{\hat\beta_1-\beta_1}{\sqrt{\sigma^2/\sum x_i^2}}}{\sqrt{\hat\sigma^2/\sigma^2}}\simeq\frac{U(0,1)}{\sqrt{\chi^2_{n-2}/(n-2)}}\sim t(n-2). \]

對於\(\hat\beta_0\),類似的證明過程可以得出

\[\frac{\hat\beta_0-\beta_0}{\sqrt{\frac{\sum x_i^2-n\bar Xx_i}{n\sum x_i^2}\hat\sigma^2}}\sim t(n-2). \]

實際上,求\(\hat\beta_0,\hat\beta_1\)的參數估計與方差未知情形的正態分布均值估計有異曲同工之妙,只不過樣本方差的獲得方式不太一樣。對於回歸參數,我們只要推導出\(\hat\beta_0,\hat\beta_1\)的方差,再用殘差平方和除以自由度\(n-2\)代替方差里的\(\sigma^2\),就能得到樞軸量,剩下的過程與數理統計的情形一致。

3、參數的假設檢驗

在數理統計中,我們已經知道,對參數分布族的假設檢驗與求參數分布族的區間估計,在一定程度上是等價的。具體說來,如果我們已經求得參數\(\lambda\)的一個置信水平為\(1-\alpha\)的區間估計\([L,S]\),那么對如下假設進行顯著性水平為\(\alpha\)的雙邊檢驗:

\[\text{test: }H_0:\lambda=\lambda_0\leftrightarrow H_1:\lambda\ne\lambda_0, \]

只需要判斷是否\(\lambda_0\in[L,S]\)即可,如果\(\lambda_0\in[L,S]\),則接受\(H_0\),否則就拒絕\(H_0\)。如果是單邊假設檢驗,則相應的置信區間就變成同等置信水平的置信限。因此,在我們討論完\(\hat\beta_0,\hat\beta_1\)的分布之后,實際上假設檢驗問題也討論完了。

在計量經濟學中,我們對單個參數的假設檢驗,最主要是用於判斷變量是否顯著的,也就是用\(X\)來預測\(Y\)是否有意義。具體說來,對於回歸函數\(Y=\beta_0+\beta_1X+\mu\),如果\(\beta_1=0\),則我們不需要用\(X\)來預測\(Y\),因為不論\(X\)是什么取值,都對\(Y\)沒什么影響。也就是檢驗如下的假設:

\[H_0:\beta_1=0. \]

另一種假設檢驗,是檢驗是否\(X,Y\)之間存在完全的比例關系,也就是有沒有\(Y=\beta_1X+\mu\),檢驗的假設是

\[H_0:\beta_0=0. \]

如果只是單純想要知道是否應該接受\(H_0\),則假設檢驗與區間估計無異,但為了衡量接受原假設的信心有多大,或者拒絕原假設的信心有多大,我們都會計算檢驗的p-value。檢驗的p-value用通俗的語言解釋,就是如果你這個原假設是成立的,那么出現比你的觀測值更離譜的觀測值的概率是多少,我們用p-value來表示這個概率,如果這個概率很小,就說明你這個觀測值已經很難再離譜了,因此我們沒有什么接受原假設的理由;如果這個概率很大,就說明你的觀測值不離譜,完全可以接受原假設。

具體應用到回歸系數的假設檢驗中,由於我們構造的樞軸量滿足\(t\)分布,假設樞軸量的觀測值是\(t_0\),則由於\(t\)分布的對稱性,用\(t_{\alpha}\)表示\(t\)分布的下\(\alpha\)分位數(\(\mathbb P(t<t_\alpha)=\alpha\)),則檢驗的p-value是

\[p_v=\mathbb 2P(t>|t_0|). \]

如果\(p_v\)很小,我們就應該拒絕\(\beta_i=0\)的原假設,認為回歸系數很顯著。

現在我們繼續分析上文的案例。

數值表

通過計算,我們得到的回歸方程為

\[Y=1.3269X-160.5962, \]

計算殘差,得到的殘差分別是4.3077、-1.0192、1.6538、-6、-2.3269、-9.6538、14.0192、-0.9808,所以殘差平方和為354.4404,方差的估計值是

\[\hat\sigma^2=\frac{354.4404}{8-2}=59.0734. \]

現在,我們可以了解回歸結果中的部分剩余數值。

回歸結果

這里:

  • Residual SS就是殘差平方和(Residual Sum Square),得到的結果與我們計算相差不多,這是因為我們在計算過程中忽略了部分誤差。
  • Residual MS則是殘差均方誤差,計算所得的就是隨機誤差方差的估計值。
  • x和_cons后面的t指的是根據假設\(\beta_1=0\)\(\beta_0=0\)構造樞軸量的觀測值,后面的P>|t|就是檢驗的p-value,從這里可以看出p-value都大於0.05,所以在顯著性水平為0.05的情況下不能拒絕等於0的原假設,認為斜率和截距都不存在。
  • [95% Conf. Interval]指的是置信水平為95%的置信區間,因為這兩個參數的置信區間都包含0,所以它們得出了與假設檢驗一致的結論。

本文我們對回歸系數OLS估計量的分布作了進一步的討論,得到了基礎假設下回歸系數OLS估計量的分布。同時,通過殘差平方和引出了隨機誤差項方差的估計,進而完成了對參數的區間估計與假設檢驗。現在留給我們的問題,就剩下回歸的效果了,我們應當如何判斷回歸的效果如何,又應該如何使用我們建立的回歸模型?

這些問題,留待下文討論。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM