ML之多元線性回歸

本文轉載自查看原文 2017-10-26 16:35 1299 ML

轉自：http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html

1、多元線性回歸模型

假定被解釋變量與多個解釋變量之間具有線性關系，是解釋變量的多元線性函數，稱為多元線性回歸模型。即

(1.1)

其中為被解釋變量，為個解釋變量，為個未知參數，為隨機誤差項。

被解釋變量的期望值與解釋變量的線性方程為：

(1.2)

稱為多元總體線性回歸方程，簡稱總體回歸方程。

對於組觀測值，其方程組形式為：

(1.3)

即

其矩陣形式為

即

(1.4)

其中

為被解釋變量的觀測值向量；為解釋變量的觀測值矩陣；為總體回歸參數向量；為隨機誤差項向量。

總體回歸方程表示為：

(1.5)

多元線性回歸模型包含多個解釋變量，多個解釋變量同時對被解釋變量發生作用，若要考察其中一個解釋變量對的影響就必須假設其它解釋變量保持不變來進行分析。因此多元線性回歸模型中的回歸系數為偏回歸系數，即反映了當模型中的其它變量不變時，其中一個解釋變量對因變量的均值的影響。

由於參數都是未知的,可以利用樣本觀測值對它們進行估計。若計算得到的參數估計值為，用參數估計值替代總體回歸函數的未知參數，則得多元線性樣本回歸方程：

(1.6)

其中為參數估計值，為的樣本回歸值或樣本擬合值、樣本估計值。

其矩陣表達形式為:

(1.7)

其中為被解釋變量樣本觀測值向量的階擬合值列向量；為解釋變量的階樣本觀測矩陣；為未知參數向量的階估計值列向量。

樣本回歸方程得到的被解釋變量估計值與實際觀測值之間的偏差稱為殘差。

(1.8)

2、多元線性回歸模型的假定

與一元線性回歸模型相同，多元線性回歸模型利用普通最小二乘法(OLS)對參數進行估計時，有如下假定：

假定1 零均值假定：，即

(2.1)

假定2 同方差假定(的方差為同一常數)：

（2.2）

假定3 無自相關性：

(2.3)

假定4 隨機誤差項與解釋變量不相關(這個假定自動成立)：

（2.4）

假定5 隨機誤差項服從均值為零，方差為的正態分布：

（2.5）

假定6 解釋變量之間不存在多重共線性：

即各解釋變量的樣本觀測值之間線性無關，解釋變量的樣本觀測值矩陣的秩為參數個數k+1，從而保證參數的估計值唯一。

3、多元線性回歸模型的參數估計

3.1回歸參數的最小二乘估計

對於含有個解釋變量的多元線性回歸模型

設分別作為參數的估計量，得樣本回歸方程為：

觀測值與回歸值的殘差為：

由最小二乘法可知應使全部觀測值與回歸值的殘差的平方和最小，即使

(3.1)

取得最小值。根據多元函數的極值原理，分別對求一階偏導，並令其等於零，即

(3.2)

即

化簡得下列方程組

(3.3)

上述個方程稱為正規方程，其矩陣形式為

(3.4)

因為

設為估計值向量

樣本回歸模型兩邊同乘樣本觀測值矩陣的轉置矩陣，則有

得正規方程組：

(3.5)

由假定(6)，，為階方陣，所以滿秩，的逆矩陣存在。因而

(3.6)

則為向量的OLS估計量。

以二元線性回歸模型為例，導出二元線性回歸模型的OLS估計量的表達式。由(1.3)式得二元線性回歸模型為

為了計算的方便，先將模型中心化。

設，則二元回歸模型改寫為中心化模型。

(3.7)

記

(3.8)

將代入得

(3.9)

因為

(3.10)

則

由(3.6)式得

(3.11)

其中

由(3.11)式可知

得

(3.12)

(3.13)

(3.14)

3.2隨機誤差項的方差的估計量

樣本回歸方程得到的被解釋變量估計值與實際觀測值之間的偏差稱為殘差

則

設，可以得出是階對稱冪等矩陣，，。於是

而殘差的平方和為

其中""表示矩陣的跡，即矩陣主對角線元素的和。於是

隨機誤差項的方差的無偏估計量，記作，即，，為殘差的標准差(或回歸標准差)。

因此

(3.15)

其中

(3.16)

例如,對於二元線性回歸模型()

(3.17)

(3.18)

3.3、估計參數的統計性質

1、線性性

指最小二乘估計量是被解釋變量的觀測值的線性函數。

由於

設，則矩陣為一非隨機的階常數矩陣。所以

(3.19)

顯然最小二乘估計量是被解釋變量的觀測值的線性函數。

2、無偏性

將代入(3-16)式得

(3.20)

則

所以是的無偏估計量。

3.最小方差性

設為階數值矩陣，為階隨機矩陣(隨機變量為元素的矩陣)，為階數值矩陣，則

下面推導的方差、協方差矩陣。

定義：

由(3.20)式得

所以

(3.21)

這個矩陣主對角線上的元素表示的方差，非主對角線上的元素表示的協方差。例如是位於的第行與第列交叉處的元素(主對角線上的元素)；是位於的第行與第列交叉處的元素(非主對角線上的元素)

在應用上，我們關心的的方差，而忽略協方差，因此把(3.21)式記作

(3.22)

記，則，所以是的最小方差線性無偏估計。這說明，在(1.1)式系數的無偏估計量中，OLS估計量的方差比用其它估計方法所得的無偏估計量的方差都要小，這正是OLS的優越性所在。

用代替則得的標准估計量的估計值，乃稱為標准差。

(3.23)

其中

對於二元回歸模型()，求估計量的方差，由(3.22)式得

其中

於是

所以

(3.24)

(3.25)

(3.26)

(3.27)

其中

4. 顯著性檢驗

4.1 擬合優度檢驗

4.1.1總離差平方和分解

設具有個解釋變量的回歸模型為

其回歸方程為

離差分解：

總離差平方和分解式為：

(4.1)

即

(4.2)總離差平方和分解為回歸平方和與殘差平方和兩部分。體現了觀測值總波動大小，稱為總偏差平方和，記作TSS. 體現了n個估計值的波動大小，它是由於Y與自變量的變化而引起，被稱作為回歸平方和，記為ESS（Explained Sum of Squares）或U；稱為殘差平方和，記為RSS（Residual Sum of Squares）或Q.

4.1.2樣本決定系數

對於多元回歸方程，其樣本決定系數為復決定系數或多重決定系數。

，簡記為。

(4.3)

根據式(4.2)

(4.4)

因為

由(3.16)式知

所以

(4.5)

作為檢驗回歸方程與樣本值擬合優度的指標：越大，表示回歸方程與樣本擬合的越好；反之，回歸方程與樣本值擬合較差。

具體的，當時,求樣本決定系數

由(3.8)式，得，因此有

(4.6)

4.1.3調整后的樣本決定系數

在使用時，容易發現的大小與模型中的解釋變量的數目有關。如果模型中增加一個新解釋變量，總離差不會改變，但總離差中由解釋變量解釋的部分，即回歸平方和將會增加，這就是說與模型中解釋變量個數有關。但通過增加模型中解釋變量的數目而使增大是錯誤的，顯然這樣來檢驗被回歸方程與樣本值擬合優度是不合適的，需要對進行調整，使它不但能說明已被解釋離差與總離差的關系，而且又能說明自由度的數目。

以表示調整樣本決定系數，

(4.7)

其中

這里是殘差平方和的自由度，是總離差平方和的自由度。

由(4.7)式得

其中,是樣本觀測值的個數,是解釋變量的個數。從式中可以看出，當增加一個解釋變量時，由前面分析可知會增加，引起減少，而增加，因而不會增加。這樣用判定回歸方程擬合優度，就消除了對解釋變量個數的依賴。

或只能說明在給定的樣本條件下回歸方程與樣本觀測值擬合優度，並不能做出對總體模型的推測，因此不能單憑或來選擇模型，必須對回歸方程和模型中各參數的估計量做顯著性檢驗。

4.2方程顯著性檢驗

由離差平方和分解(4.2)式可知，總離差平方和的自由度為，回歸平方和是由個解釋變量對的線性影響決定的。因此它的自由度為。所以，殘差平方和的自由度由總離差平方和的自由度減去回歸平方和的自由度，即為。

檢驗回歸方程是否顯著，

第一步，作出假設

備擇假設H₁：b₁ 、 b₂ 、…、b_k不同時為0

第二步，在成立的條件下，計算統計量

第三步，查表臨界值

對於假設，根據樣本觀測值計算統計量給定顯著水平，查第一個自由度為，第二個自由度為的分布表得臨界值。當時，拒絕，則認為回歸方程顯著成立；當時，接受，則認為回歸方程無顯著意義。

4.3參數顯著性檢驗

回歸方程顯著成立，並不意味着每個解釋變量對被解釋變量的影響都是重要的。如果某個解釋變量對被解釋變量的影響不重要，即可從回歸模型中把它剔除掉，重新建立回歸方程，以利於對經濟問題的分析和對進行更准確的預測。為此需要對每個變量進行考查，如果某個解釋變量對被解釋變量的作用不顯著，那么它在多元線性回歸模型中，其前面的系數可取值為零。因此必須對是否為零進行顯著性檢驗。

由(3.23)式

(4.8)

其中

為的第i個對角元素，而，是中心化的數據陣。

對回歸系數進行顯著性檢驗，步驟如下：

(1)提出原假設；備擇假設。

(2)構造統計量，當成立時,統計量。這里是的標准差，為解釋變量個數，計算由式(4.8)給出。

(3)給定顯著性水平，查自由度為的分布表，得臨界值。

(4)若，則拒絕，接受，即認為顯著不為零。若，則接受，即認為顯著為零。

5.回歸變量的選擇與逐步回歸

5.1變量選擇問題

在實際問題中，影響因變量Y的因素（自變量）很多，人們希望從中挑選出影響顯著的自變量來建立回歸關系式，這就涉及到自變量選擇的問題。

在回歸方程中若漏掉對Y影響顯著的自變量，那么建立的回歸式用於預測時將會產生較大的偏差。但回歸式若包含的變量太多，且其中有些對Y影響不大，顯然這樣的回歸式不僅使用不方便，而且反而會影響預測的精度。因而選擇合適的變量用於建立一個"最優"的回歸方程是十分重要的問題。

選擇"最優"子集的變量篩選法包括逐步回歸法(Stepwise),向前引入法（Forward）和向后剔除法(Backwad)。

向前引入法是從回歸方程僅包括常數項開始，把自變量逐個引入回歸方程。具體地說，先在m個自變量中選擇一個與因變量線性關系最密切的變量，記為，然后在剩余的m-1個自變量中，再選一個，使得聯合起來二元回歸效果最好，第三步在剩下的m-2個自變量中選擇一個變量，使得聯合起來回歸效果最好，...如此下去，直至得到"最優"回歸方程為止。

向前引入法中的終止條件為，給定顯著性水平，當某一個對將被引入變量的回歸系數作顯著性檢查時，若p-value ，則引入變量的過程結束，所得方程即為"最優"回歸方程。

向前引入法有一個明顯的缺點，就是由於各自變量可能存在着相互關系，因此后續變量的選入可能會使前面已選入的自變量變得不重要。這樣最后得到的"最優"回歸方程可包含一些對Y影響不大的自變量。

向后剔除法與向前引入法正好相反，首先將全部m個自變量引入回歸方程，然后逐個剔除對因變量Y作用不顯著的自變量。具體地說，從回歸式m個自變量中選擇一個對Y貢獻最小的自變量，比如，將它從回歸方程中剔除；然后重新計算Y與剩下的m-1個自變量回歸方程，再剔除一個貢獻最小的自變量，比如,依次下去，直到得到"最優"回歸方程為止。向后剔除法中終止條件與向前引入法類似。

向后剔除法的缺點在於，前面剔除的變量有可能因以后變量的剔除，變為相對重要的變量，這樣最后得到的"最優"回歸方程中有可能漏掉相對重要的變量。

逐步回歸法是上述兩個方法的綜合。向前引入中被選入的變量，將一直保留在方程中。向后剔除法中被剔除的變量，將一直排除在外。這兩種方程在某些情況下會得到不合理的結果。於是，可以考慮到，被選入的的變量，當它的作用在新變量引入后變得微不足道時，可以將它刪除；被剔除的變量，當它的作用在新變量引入情況下變得重要時，也可將它重新選入回歸方程。這樣一種以向前引入法為主，變量可進可出的篩選變量方法，稱為逐步回歸法。