多元線性回歸 ——模型、估計、檢驗與預測


一、模型假設

傳統多元線性回歸模型

最重要的假設的原理為:

1. 自變量和因變量之間存在多元線性關系,因變量y能夠被x1,x2….x{k}完全地線性解釋;2.不能被解釋的部分則為純粹的無法觀測到的誤差

其它假設主要為:

1.模型線性,設定正確; 2.無多重共線性; 3.無內生性; 4.隨機誤差項具有條件零均值、同方差、以及無自相關; 5.隨機誤差項正態分布

具體見另一篇文章:回歸模型的基本假設

二、估計方法

目標:估計出多元回歸模型的參數

注:下文皆為矩陣表述,X為自變量矩陣(n*k維),y為因變量向量(n*1維)

OLS(普通最小二乘估計)

思想:多元回歸模型的參數應當能夠使得, 因變量y的樣本向量 在 由自變量X的樣本所構成的線性空間G(x)的投影(即y’= xb)為向量y在 線性空間G(x)上的正交投影。直白一點說,就是要使得(y-y’)’(y-y’)最小化,從而能夠使y的預測值與y的真實值之間的差距最小。

使用凸優化方法,可以求得參數的估計值為:b = (x’x)^(-1)x’y

最大似然估計

既然已經在假設中假設了隨機誤差項的分布為正態分布,

image

那么自變量y的分布也可以由線性模型推算出來(其分布的具體函數包括參數b在內)。

image

進一步的既然已經抽取到了y的樣本,那么使得y的樣本出現概率(聯合概率密度)最大的參數即為所求

image

最終結果與OLS估計的結果是一致的

矩估計

思想:通過尋找總體矩條件(模型設定時已經有的假設,即無內生性),在總體矩條件中有參數的存在,然后用樣本矩形條件來進行推導未知參數的解。

在多元回歸中有外生性假設:

image

對應的樣本矩為:

image

最終估計結果與OLS方法也是一樣的。

 

三、模型檢驗

1.擬合優度檢驗

(1)因變量y是隨機變量,而估計出來的y’卻不是隨機變量;

(2)擬合優度表示的是模型的估計值y’能夠在多大程度上解釋因變量樣本y的變動。

(3)y’的變動解釋y的變動能力越強,則說明模型擬合的越好y-y’就越接近與假設的隨機誤差

(4)而因變量的變動是由其方差來描述的。

所以定義3個變動:y’的變動,y的變動,以及隨機誤差u的變動。y的變動是由y’的變動和u的變動所構成的。

image

                                                    image

TSS:總回歸平方和,代表y的變動

RSS:殘差平方和,代表y’沒有觀測到的變動,這部分越大,說明擬合效果越差

ESS:回歸平方和,代表y’觀測到的變動,這部分越大,說明擬合效果越好。

進一步地,得出了擬合系數

image該系數越大,表明模型的擬合程度越好。

需要注意的是,擬合系數並非越大越好,過度擬合的模型是難以進行外推的。

2.總體線性的檢驗

假設:image

思想:若是所有參數的系數都為0,那么y的變動純粹是由隨機項的變動決定的,ESS模型解釋的變動范圍即為隨機項的變動范圍,由於隨機項服從正態分布,那么ESS則服從卡方分布,又RSS為隨機項的變動,本身就服從卡方分布。因此可以構造F統計量

image

若F值過大,則原假設成立的可能性就很小了。

3.變量顯著性的檢驗

變量顯著性的檢驗思想非常簡單:由於b = (x’x)^(-1)x’y,再加上隨機項正態分布的假設,便可以得出b的正態分布結論,同時由於隨機項的方差是未知的,所以我們便用余差平方和對方差進行估計,從而能夠構造T統計量。

四、回歸模型的預測


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM