從統計學看線性回歸(1)——一元線性回歸


目 錄

1. 一元線性回歸模型的數學形式

2. 回歸參數β, β1的估計

3. 最小二乘估計的性質

  線性性

  無偏性

  最小方差性

一、一元線性回歸模型的數學形式

  一元線性回歸是描述兩個變量之間相關關系的最簡單的回歸模型。自變量與因變量間的線性關系的數學結構通常用式(1)的形式:

                            y = β0 + β1x + ε                           (1)

其中兩個變量y與x之間的關系用兩部分描述。一部分是由於x的變化引起y線性變化的部分,即β0 + β1x,另一部分是由其他一切隨機因素引起的,記為ε。該式確切的表達了變量x與y之間密切關系,但密切的程度又沒有到x唯一確定y的這種特殊關系。

  式(1)稱為變量y對x的一元線性回歸理論模型。一般稱y為被解釋變量(因變量),x為解釋變量(自變量),β0β1是未知參數,成β0為回歸常數,β1為回歸系數。ε表示其他隨機因素的影響。一般假定ε是不可觀測的隨機誤差,它是一個隨機變量,通常假定ε滿足

                                                      2)

對式(1)兩邊求期望,得

                             E(y) = β0 + β1x,                            (3)

稱式(3)為回歸方程

E(ε) = 0  可以理解為 ε 對 y 的總體影響期望為 0,也就是說在給定 x 下,由x確定的線性部分 β0 + β1x 已經確定,現在只有 ε 對 y 產生影響,在 x = x0, ε = 0即除x以外其他一切因素對 y 的影響為0時,設 y = y0,經過多次采樣,y 的值在 y上下波動(因為采樣中 ε 不恆等於0),若 E(ε) = 0 則說明綜合多次采樣的結果, ε 對 y 的綜合影響為0,則可以很好的分析 x 對 y 的影響(因為其他一切因素的綜合影響為0,但要保證樣本量不能太少);若 E(ε) = c ≠ 0,即 ε 對 y 的綜合影響是一個不為0的常數,則E(y) = β0 + β1x + E(ε),那么 E(ε) 這個常數可以直接被 β捕獲,從而變為公式(3);若 E(ε) = 變量,則說明 ε 在不同的 x 下對 y 的影響不同,那么說明存在其他變量也對 y 有顯著作用。

Var(ε) = σ2:因為所有的樣本點並不是完全在回歸直線上(即 x 與 y 的關系不是確定的函數關系),所以 ε 的方差一定不為0,Var(ε) = σ2的意義為在不同 x 下, ε 對 y 產生同樣的波動,是為了后續計算方便,若 ε 的方差對 y 產生的波動隨 x 變化,那么需要分析這種變化及其產生的一系列問題。

  一般情況下,對所研究的某個實際問題,獲得n組樣本觀測值(x1, y1),(x2, y2),...,(xn, yn),如果它們符合模型(1),則

                   yi = β0 + β1xi + εi, i = 1, 2, ..., n                (4)

由式(2)有

               i = 1, 2, ..., n.                  (5)

  通常還假定n組數據是獨立觀測的,因而y1,y2,...,ynε12,...,εn都是相互獨立的隨機變量,而xi(i = 1, 2, ..., n)是確定性變量,其值是可以精確測量和控制的。稱式(4)為一元線性回歸模型。

  對式(4)兩邊分別求數學期望和方差,得

E(yi) = β0 + β1xi,      Var(yi) = σ2, i = 1, 2, ..., n              (6)

可知

個人理解,εi 並不是同分布,因為並不知道他們服從什么分布,從期望和方差相等推不出同分布,雖然同分布下期望和方差一定相等。

  E(yi) = β0 + β1x從平均意義上表達了變量y與x的統計規律性。在應用上,人們經常關系的正是這個平均值。

  在實際問題中,為了方便對參數β0,β1作區間估計和假設檢驗,還假定模型(1)中誤差項ε遵從正態分布,即

                             ε ~ N(0,σ2),                            (7)

(才會滿足 ε同分布)

  由於 ε12,...,ε是 ε 的獨立同分布的樣本,因而有

                     εi N(0,σ2), i = 1, 2, ..., n                     (8)

ε遵從正態分布的假定下,進一步有隨機變量y,也遵從正態分布

yi  N(β0 + β1xi, σ2), i = 1, 2, ..., n                (9)

 

二、回歸參數β0 , β1的估計

普通最小二乘估計(ordinary least squares estimate, OLSE)

  為了得到回歸系數的理想估計值,使用OLSE(因為OLSE和方差都是差方和的形式)。對每一個樣本觀測值(xi, yi),最小二乘法考慮觀測值yi與其回歸值的離差越小越好,綜合地考慮n個離差值,定義離差平方和為

                                   10)

可以看到其回歸值是期望值,這里使用到條件 E(ε) = 0.

  最小二乘法,就是尋找參數β0β1的估計值,使式(10)定義的離差平方和達極小,即尋找滿足

                                    11)

依照式(11)求出的就稱為回歸參數β0β1的最小二乘估計。稱

                                                                      12)

yi(i = 1, 2,...,n)的回歸擬合值,簡稱回歸值或擬合值。稱

                                                                            13)

yi(i = 1, 2, ..., n)的殘差

離差和殘差:

在本文中離差和殘差的公式都是真實值與估計值之間的差,但是,離差是在回歸方程得到之前定義的,不能直接得到,通過離差平方和最小來求得回歸系數從而得到回歸方程,可以將離差看作是風險程度,使離差平方和最小即為使總風險最小。殘差是在回歸方程得到后定義的,可以直接得到具體數值,若沒有回歸方程就不存在殘差的概念,殘差平方和度量了n個樣本點觀測值到回歸直線的距離大小,可以視為隨機誤差的效應。殘差用於研究模型的適用性,也是探測是否違背基本假設的評測量之一。

  從式(11)中求出是一個求極值問題。由於Q是關於的非負二次函數,因而它的最小值總是存在的,利用微積分求極值原理,應滿足下列方程組

                                   14)

求解正規方程組(14)得β0β1的最小二乘估計(OLSE)為

                                                             15)

 

其中

  記

                                          16)

                              17)

則式(15)可簡寫為

                          18)

可知

                             19)

可見回歸直線是通過點的,從物理學角度來看,n個樣本觀測值(xi, yi)的中心,也就是說回歸直線通過樣本的中心。

  回歸直線過點,說明在 x 取均值時,y 的期望也是 y 的均值。由最小二乘估計的性質可知,回歸系數是無偏估計,所以可以推導出

  由式(14)可以推出

                                 20)

說明殘差的均值為0,並且殘差以自變量x的加權平均值為0.

三、最小二乘估計的性質

一、線性性

  估計量為隨機變量yi的線性函數。由式(18)得  

                      20)

其中y的系數,所以y的線性組合。同理

      21)

二、無偏性

  均為β0β1的無偏估計。由於xi是非隨機變量,yi = β0 + β1xi + εi, E(εi) = 0,因而有

E(yi) = β0 + β1xi                                   (22)

再由式(18)可得

                  23)

                24)

  無偏估計的意義是:如果屢次變更數據,反復求β0β1的估計值,這兩個估計量沒有高估或低估的系統趨向,它們的平均值將趨向於β0β1,進一步有

                            25)

這表明回歸值E(y)的無偏估計,也說明與真實值y的平均值是相同的。

三、最小方差性(最優性、有效性)

  方差用來評估變量的波動狀況。由y1,y2,..,yn相互獨立Var(yi) = σ2及式(25)得

                 26)

  方差的大小表示隨機變量取值波動的大小。假設反復抽取容量為n的樣本建立回歸方程,每次計算的值是不同的,正是反映這些的差異程度。

  從式(26)可以看到,回歸系數不僅與隨機誤差的方差σ2有關,還與自變量x的取值波動程度有關。如果x取值比較分散,即x的波動較大,則的波動就小,β1的估計量就比較穩定;反之,如果原始數據x是在一個較小的范圍內波動,那么β1的估計值穩定性就差。

類似地,有

            27)

由式(27)可知,回歸常數的方差不僅與隨機誤差的方差σ2和自變量x的取值波動程度有關,還與樣本數量n有關n越大,越小。

  所以從式(26)和(27)可以看出,方差的意義可以用來指導抽樣。想要是β0β1的估計量更穩定,在收集數據時,就要考慮將x取的分散些,樣本量盡量大一些。

  因為都是n個獨立正態隨機變量y1,y2,...,yn的線性組合,因而也遵從正態分布。有

                            28)

                                           29)

的協方差

                             30)

式(30)說明,在=0時,不相關,在正態假定下獨立;在≠0時不獨立。它揭示了回歸系數之間的關系狀況。

  之前給出的回歸模型隨機誤差項ε等方差及不相關的假定條件,這個條件稱為Gauss-Markov條件,即

            31)

在此條件下可以證明,分別是β0β1的最佳線性無偏估計(best linear unbiased estimate, BLUE),也稱為最小方差線性無偏估計。BLUE即指在β0β1的一切線性無偏估計中,它們的方差最小。

進一步,對於固定的x0,有也是y1,y2,...,yn的線性組合,且

              32)

E(y0)的無偏估計,且的方差隨給定的x0值與的距離|x0-|的增大而增大。即當給定的x0x的樣本平均值相差較大時,的估計值波動就增大。指導意義:應用回歸方程進行控制和預測時,給定的x0值不能偏離樣本均值太大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM