簡單回歸模型
相關程度的度量
回顧在概率論與數理統計中,我們常常使用相關系數去度量隨機變量 \(X\) 和 \(Y\) 之間的線性相關程度:
總體線性相關系數
樣本線性相關系數
在使用相關系數時,我們需要注意以下幾點:
-
相關系數只反映變量間的線性相關程度,不能說明非線性相關關系;
-
樣本相關系數是總體相關系數的樣本估計值,由於抽樣波動,樣本相關系數是個隨機變量,其統計顯著性有待檢驗;
-
相關系數只能反映線性相關程度,不能確定因果關系。
在計量經濟學中,利用相關系數單純地發現兩個或多個變量間具有某種聯系,這樣的結論是很難令人信服和滿意的。我們常常關心的是一個變量對另一個變量之間的因果關系,以及隱藏在隨機性后面的統計規律性,於是我們需要引入回歸分析的方法。
回歸分析的研究對象是具有相關關系的變量,研究目的是尋求它們之間客觀存在的依賴關系。我們將從一元線性回歸模型開始討論,大致思路將按照模型設定、基本假設、參數估計、假設檢驗的順序展開,並逐漸延伸。
簡單線性回歸模型
簡單回歸模型可以用來研究兩個變量之間的關系。我們直接從概念引入,然后再對其細節逐一解釋。
注意辨析以下幾個概念:
- 總體回歸函數(PRF)
- 總體回歸模型(PRM)
- 樣本回歸函數(SRF)
- 樣本回歸模型(SRM)
線性的含義:\(y\) 和 \(x\) 之間並不一定存在線性關系,但是,只要通過轉換可以使 \(y\) 的轉換形式和 \(x\) 的轉換形式存在相對於參數的線性關系,該模型即稱為線性模型。
隨機干擾項:在總體回歸模型中,隨機干擾項 \(u\) 是一個不可觀測的隨機變量,代表了除了 \(x\) 之外可以影響 \(y\) 的因素。其重要程度在於隨機干擾項 \(u\) 的性質往往決定着計量方法的選擇,在后續的內容中我們將對這些方法逐一涉及。
簡單線性回歸的基本假定
為什么要作基本假定?
回歸分析的主要目的是通過樣本回歸模型盡可能准確的估計總體回歸模型。由於我們在模型中引入了隨機擾動項,只有對隨機擾動的分布作出假定,才能確定所估計參數的分布性質,也才可能進行假設檢驗和區間估計。在這里我們僅介紹必要的模型假設,關於線性回歸基本假設的嚴格定義,以及涉及參數估計和假設檢驗的推導過程將在多元回歸分析部分展開詳述。
-
條件零均值:\({\rm E}(u_i|x)=0\) ,其含義為在給定解釋變量 \(x\) 的條件下,隨機誤差項的均值為 \(0\) ,即不包含任何系統的趨勢。利用全期望公式可以推導出無條件零均值:\({\rm E}(u_i)={\rm E}\left[{\rm E}(u_i|x)\right]=0\) 。
-
同方差:\({\rm Var}(u_i|x)=\sigma^2\) ,其含義為在給定解釋變量 \(x\) 的條件下,被解釋變量 \(y_i\) 在其均值附近的波動程度是一致的。
-
序列無關:\({\rm Cov}(u_i,\,u_j|x)=0\ , \ \ i\neq j\) ,其含義為在給定解釋變量 \(x\) 的條件下,不同次的觀測是彼此不相關的。
-
正態性:\(u_i|x\sim N(0,\,\sigma^2)\) 。正態性假設的提出旨在為區間估計和假設檢驗提供服務。事實上,正態性假定不影響對參數的點估計,只有在確定參數的統計分布時才有所需要。在正態性假定下,可以得到 \(y|x\sim N(\beta_0+\beta_1x,\,\sigma^2)\) 。
普通最小二乘法
我們稱樣本回歸函數中的 \(\hat{y}\) 為被解釋變量的擬合值,理想的估計方法應該使得樣本理論值 \(y_i\) 和擬合值 \(\hat{y}_i\) 的差距(即殘差 \(e_i=\hat{u}_i\) )越小越好。由於 \(e_i\) 可正可負,所以我們取其平方和的最小值作為擬合的目標。
基本思想——最小化殘差平方和:
取偏導數為 \(0\) 可以 OLS 估計值的一階條件:
求解一階條件即可得到回歸系數的 OLS 估計:
給出 \(\sigma^2\) 的 OLS 估計(不作證明):
注意,這里的 \(\hat\sigma^2\) 是 \(\sigma^2\) 的無偏估計,但 \(\hat\sigma\) 僅是 \(\sigma\) 的一致估計而非無偏估計。
OLS 估計的代數性質
根據 OLS 估計值的一階條件,我們可以推導出 OLS 估計值及其相關統計量的一些有用的代數性質。這些代數性質在我們后面計算總變差的分解和定義擬合優度時會起到很大的作用。
(1) OLS 殘差和及其樣本均值都為零。
(2) 解釋變量和 OLS 殘差的樣本協方差為零。
(3) 點 \((\bar{x},\,\bar{y})\) 總在 OLS 回歸線上。
總變差的分解
首先我們先定義總變差,即總平方和(Total Sum of Squares),伍德里奇將其縮寫為 \(\rm SST\) ,在其他的一些教材中也寫作 \(\rm TSS\) 。 \(\rm SST\) 度量了 \(y_i\) 在樣本中的分散程度,可以發現如果我們將 $ \rm SST$ 除以 \(n-1\) 便得到了 \(y_i\) 的樣本方差:
類似的,我們定義回歸平方和(Explained Sum of Squares)用來度量 \(\hat{y}_i\) 的樣本波動,在這里我們繼續沿用伍德里奇的寫法,記為 \({\rm SSE}\) :
最后我們定義殘差平方和(Residual Sum of Squares)用來度量殘差 \(e_i\) 的樣本波動,簡記為 \({\rm SSR}\) :
這里的縮寫方式對於不同的教材和作者有着不同的習慣,在不同的計量經濟學軟件中也有不同的表示,在本篇筆記中我們僅參考伍德里奇在《計量經濟學導論》中的寫法,希望讀者諒解。
關於總變差的分解,其含義為:\(y\) 的總波動總能表示成能解釋的波動和不能解釋的波動之和,即
利用上述 OLS 的代數性質,給出證明:
擬合優度檢驗
通過 OLS 估計我們可以得到樣本回歸函數 \(\hat{y}=\hat\beta_0+\hat\beta_1 x\) ,也可以稱為樣本回歸線。現在我們想要計算出一個數值,用以概括回歸線對數據擬合的程度是好是壞,即引入擬合優度的概念。根據之前的總變差分解公式,我們用回歸平方和占 \(y\) 的總變差的比例來判斷樣本回歸線與樣本觀測值的擬合優度,用 \(R^2\) 來表示,稱之為可決系數:
可能會有這樣一個疑問:既然 \({\rm SSR}\) 反映了樣本觀測值與估計值偏離的大小,可否直接用它作為擬合優度檢驗的統計量?事實上,檢驗統計量一般應選擇相對量而不用絕對量,而 \({\rm SSR}\) 的大小和樣本容量 \(n\) 的關系很大,樣本容量小的回歸方程肯定有更小的殘差平方和,不能因此而判斷模型的擬合優度較好。
根據以上定義,我們可以概括可決系數 \(R^2\) 的特點如下:
-
\(R^2\) 越大,模型的擬合優度越好;
-
取值范圍: \(0\leq R^2 \leq 1\) ;
-
\(R^2\) 是隨抽樣而變動的隨機變量;
-
\(R^2\) 不因變量 \(y\) 或 \(x\) 的單位變化而改變。
但使用可決系數 \(R^2\) 時應注意以下幾點:
-
可決系數 \(R^2\) 只是說明模型中的所有解釋變量對因變量的聯合影響程度,特別在多元回歸模型中, \(R^2\) 不能說明模型中每個解釋變量的影響程度。
-
在模型中加入新的解釋變量會使得 \(R^2\) 增大,因此基於 \(R^2\) 的大小來對解釋變量進行篩選可能會導致一些不合理的模型。
-
如果建模的目的只是為了預測因變量的值,而不是為了得到符合經濟意義的估計回歸系數,一般可考慮有較高的可決系數。
參數的統計分布
變量的顯著性檢驗用來對模型中被解釋變量與解釋變量之間的線性關系是否顯著成立做出推斷,可以彌補 \(R^2\) 不能解釋每個變量的影響程度的不足。在這里我們只討論斜率參數的估計 \(\hat\beta_1\) 的統計分布。
在滿足基本假設的情況下,我們可以推導出 \(\hat\beta_1\) 的概率分布:
在這里我們先給出結論,其推導過程我們在多元回歸分析的部分引入嚴格意義上的經典假設和高斯-馬爾科夫定理之后進行證明。
對 \(\hat\beta_1\) 的概率分布進行標准變換即可得到:
其中,\({\rm sd}(\hat\beta_1)\) 表示 \(\beta_1\) 的標准差:
但需要滿足一個前提,即 \(\sigma\) 是一個已知的常數。若 \(\sigma\) 未知,我們需要用 \(\hat\sigma\) 代替,此時計算得到的統計量我們稱之為標准誤(standard error),即
進而我們用可以計算的 \(\hat\beta_1\) 的標准誤代替不可計算的標准差去構造我們的檢驗統計量,但此時 \(\dfrac{\hat\beta_1-\beta_1}{{\rm se}(\hat\beta_1)}\) 將不再服從標准正態分布,而是 \(t\) 分布:
其中 \(n\) 為樣本容量, \(n-2\) 為自由度。
變量的顯著性檢驗
在已知統計量的分布之后,我們可以進行下述的假設檢驗過程。
提出假設:
構造 \(t\) 統計量:
給定顯著性水平 \(\alpha\),如果
則稱 \(t\) 統計量在 \(\alpha\) 的顯著性水平下顯著,拒絕原假設。
當然我們還可以使用 \(p\) 值。 \(p\) 值是基於既定的樣本數據所計算的統計量,是拒絕原假設的最低顯著性水平:設由樣本算出檢驗統計量 \(T\) 的值為 \(t_0\) ,則
我們可以理解為當 \(p<\alpha\) 時,\(p\) 值越小,越能拒絕原假設。
進而我們討論區間估計問題。我們曾經學過置信區間和假設檢驗之間的聯系,即參數的置信區間與假設檢驗所得到的接受域相同。因此,我們在以上統計分布的基礎上,可以計算 \(\beta_1\) 的置信區間。
在 \(\alpha\) 的顯著性水平下,置信度為 \((1-\alpha)\) ,可以寫出假設檢驗的接受域為:
因此可以計算出 \(\beta_1\) 的置信區間為:
根據區間估計和假設檢驗的關系,我們還有結論:如果 \(0\) 落入了 \(\beta_1\) 的置信區間的內部,則 \(\beta_1\) 一定是不顯著的。
對數函數形式
之前我們解釋了線性模型中線性的含義,即 \(y\) 的轉換形式和 \(x\) 的轉換形式存在相對於參數的線性關系。很容易想到同一變量在不同的函數形式下,模型的估計參數具有不同的經濟意義。在這里我們總結了一種特殊的線性模型——具有對數函數形式的線性模型,主要包括一種雙對數線性模型和兩種半對數線性模型。
雙對數線性模型:
-
雙對數線性模型估計得到的參數是該變量的彈性;
-
\(x\) 增加 \(1\%\) ,\(y\) 會增加 \(β_1\%\) 。
半對數線性模型
-
\(\alpha_1\)表示 \(x\) 變化 \(1\%\) 導致 \(y\) 絕對量的變化量;
-
\(x\) 增加 \(1\%\),\(y\) 會增加 \(\alpha_1/100\) 個單位;
-
\(\beta_1\) 表示 \(x\) 的變化 \(1\) 單位導致 \(y\) 變化的百分比;
-
\(x\) 增加 \(1\) 單位,\(y\) 會增加 $100\beta_1% $ ;
-
特別地,如果在此半對數模型式中 \(x\) 取為 \(t\)(年份),變量 \(t\) 按時間順序依次取值為 \(1,2,...,T\),則 \(t\) 的系數度量了 \(y\) 的年均增長速度,因此,這類半對數模型又稱為增長模型。
