一、模型假設
傳統多元線性回歸模型
最重要的假設的原理為:
1. 自變量和因變量之間存在多元線性關系,因變量y能夠被x1,x2….x{k}完全地線性解釋;2.不能被解釋的部分則為純粹的無法觀測到的誤差
其它假設主要為:
1.模型線性,設定正確; 2.無多重共線性; 3.無內生性; 4.隨機誤差項具有條件零均值、同方差、以及無自相關; 5.隨機誤差項正態分布
具體見另一篇文章:回歸模型的基本假設
二、估計方法
目標:估計出多元回歸模型的參數
注:下文皆為矩陣表述,X為自變量矩陣(n*k維),y為因變量向量(n*1維)
OLS(普通最小二乘估計)
思想:多元回歸模型的參數應當能夠使得, 因變量y的樣本向量 在 由自變量X的樣本所構成的線性空間G(x)的投影(即y’= xb)為向量y在 線性空間G(x)上的正交投影。直白一點說,就是要使得(y-y’)’(y-y’)最小化,從而能夠使y的預測值與y的真實值之間的差距最小。
使用凸優化方法,可以求得參數的估計值為:b = (x’x)^(-1)x’y
最大似然估計
既然已經在假設中假設了隨機誤差項的分布為正態分布,
那么自變量y的分布也可以由線性模型推算出來(其分布的具體函數包括參數b在內)。
進一步的既然已經抽取到了y的樣本,那么使得y的樣本出現概率(聯合概率密度)最大的參數即為所求
最終結果與OLS估計的結果是一致的
矩估計
思想:通過尋找總體矩條件(模型設定時已經有的假設,即無內生性),在總體矩條件中有參數的存在,然后用樣本矩形條件來進行推導未知參數的解。
在多元回歸中有外生性假設:
對應的樣本矩為:
最終估計結果與OLS方法也是一樣的。
三、模型檢驗
1.擬合優度檢驗
(1)因變量y是隨機變量,而估計出來的y’卻不是隨機變量;
(2)擬合優度表示的是模型的估計值y’能夠在多大程度上解釋因變量樣本y的變動。
(3)y’的變動解釋y的變動能力越強,則說明模型擬合的越好y-y’就越接近與假設的隨機誤差
(4)而因變量的變動是由其方差來描述的。
所以定義3個變動:y’的變動,y的變動,以及隨機誤差u的變動。y的變動是由y’的變動和u的變動所構成的。
TSS:總回歸平方和,代表y的變動
RSS:殘差平方和,代表y’沒有觀測到的變動,這部分越大,說明擬合效果越差
ESS:回歸平方和,代表y’觀測到的變動,這部分越大,說明擬合效果越好。
進一步地,得出了擬合系數
需要注意的是,擬合系數並非越大越好,過度擬合的模型是難以進行外推的。
2.總體線性的檢驗
思想:若是所有參數的系數都為0,那么y的變動純粹是由隨機項的變動決定的,ESS模型解釋的變動范圍即為隨機項的變動范圍,由於隨機項服從正態分布,那么ESS則服從卡方分布,又RSS為隨機項的變動,本身就服從卡方分布。因此可以構造F統計量
若F值過大,則原假設成立的可能性就很小了。
3.變量顯著性的檢驗
變量顯著性的檢驗思想非常簡單:由於b = (x’x)^(-1)x’y,再加上隨機項正態分布的假設,便可以得出b的正態分布結論,同時由於隨機項的方差是未知的,所以我們便用余差平方和對方差進行估計,從而能夠構造T統計量。










