回歸分析


回歸分析

相關分析是研究兩個或兩個以上的變量之間相關程度及大小的一種統計方法

回歸分析是尋找存在相關關系的變量間的數學表達式,並進行統計推斷的一種統計方法

在對回歸分析進行分類時,主要有兩種分類方式:

  • 根據變量的數目,可以分類一元 回歸、多元回歸

  • 根據自變量與因變量的表現形式,分為線性與非線性

所以,回歸分析包括四個方向:一元線性回歸分析、多元線性回歸分析、一元非線性回歸分析、多元非線性回歸分析。

Regression39

回歸分析的一般步驟:

Regression29

一元線性回歸分析

  • 因變量(dependent variable):被預測或被解釋的變量,用y表示

  • 自變量(independent variable):預測或解釋因變量的一個或多個變量,用x表示

  • 對於具有線性關系的兩個變量,可以用一個方程來表示它們之間的線性關系

  • 描述因變量y如何依賴於自變量x和誤差項ε的方程稱為回歸模型。對於只涉及一個自變量的一元線性回歸模型可表示為:

Regression1
  • y叫做因變量或被解釋變量
  • x叫做自變量或解釋變量
  • β0 表示截距
  • β1 表示斜率
  • ε表示誤差項,反映除x和y之間的線性關系之外的隨機因素對y的影響

一元小例子:

  • 人均收入是否會顯著影響人均食品消費支出

  • 貸款余額是否會影響到不良貸款

  • 航班正點率是否對顧客投訴次數有顯著影響

回歸方程

描述因變量y的期望值如何依賴於自變量x的方程稱為回歸方程。根據對一元線性回歸模型的假設,可以得到它的回歸方程為:

Regression2
  • 如果回歸方程中的參數已知,對於一個給定的x值,利用回歸方程就能計算出y的期望值

  • 用樣本統計量代替回歸方程中的未知參數 ,就得到估計的回歸方程,簡稱回歸直線

參數的最小二乘法估計

對於回歸直線,關鍵在於求解參數,常用高斯提出的最小二乘法,它是使因變量的觀察值y與估計值之間的離差平方和達到最小來求解

Regression3 Regression30

展開可得:

Regression4

求偏導可得:

Regression5

求解:

Regression6

實例:70年代世界制造業總產量與世界制成品總出口量的變化關系如表

Regression7 Regression8

利用回歸直線進行估計和預測:

  • 點估計:利用估計的回歸方程,對於x的某一個特定的值 ,求出y的一個估計值 就是點估計

  • 區間估計:利用估計的回歸方程,對於x的一個特定值 ,求出y的一個估計值的區間就是區間估計

估計標准誤差的計算

為了度量回歸方程的可靠性,通常計算估計標准誤差。它度量觀察值回繞着回歸直線的變化程度或分散程度。

估計平均誤差:

Regression9
  • 公式中根號內的分母是n-2,而不是n,因而自由度為n-2。

  • 估計標准誤差越大,則數據點圍繞回歸直線的分散程度就越大,回歸方程的代表性越小。

  • 估計標准誤差越小,則數據點圍繞回歸直線的分散程度越小,回歸方程的代表愈大,其可靠性越高。

置信區間估計:
Regression11
在1-α置信水平下預測區間為:
Regression10

某企業從有關資料中發現廣告投入和產品銷售有較密切的關系。近年該企業廣告費和銷售額資料見表10-3,若2003年廣告費為120萬元,請用一元線性回歸求2003年產品銷售額的置信區間與預測區間(α=0.05)

Regression12 Regression13 Regression23

影響區間寬度的因素:

  • 置信水平 (1 - α),區間寬度隨置信水平的增大而增大

  • 數據的離散程度Se,區間寬度隨離程度的增大而增大

  • 樣本容量,區間寬度隨樣本容量的增大而減小

  • X0與X均值之間的差異,隨着差異程度的增大而增大

回歸直線的擬合優度

回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優度

  • 總平方和(SST):
Regression14
  • 回歸平方和(SSR):
Regression15
  • 殘差平方和(SSE):
Regression16

總平方和可以分解為回歸平方和、殘差平方和兩部分:SST=SSR+SSE

  • 總平方和(SST),反映因變量的 n 個觀察值與其均值的總離差

  • 回歸平方和SSR反映了y的總變差中,由於x與y之間的線性關系引起的y的變化部分

  • 殘差平方和SSE反映了除了x對y的線性影響之外的其他因素對y變差的作用,是不能由回歸直線來解釋的y的變差部分

判定系數

回歸平方和占總平方和的比例,用R^2表示,其值在0到1之間。

  • R^2 == 0:說明y的變化與x無關,x完全無助於解釋y的變差

  • R^2 == 1:說明殘差平方和為0,擬合是完全的,y的變化只與x有關

Regression17 Regression31

顯著性檢驗

顯著性檢驗的主要目的是根據所建立的估計方程用自變量x來估計或預測因變量y的取值。當建立了估計方程后,還不能馬上進行估計或預測,因為該估計方程是根據樣本數據得到的,它是否真實的反映了變量x和y之間的關系,則需要通過檢驗后才能證實。

根據樣本數據擬合回歸方程時,實際上就已經假定變量x與y之間存在着線性關系,並假定誤差項是一個服從正態分布的隨機變量,且具有相同的方差。但這些假設是否成立需要檢驗

顯著性檢驗包括兩方面:

  • 線性關系檢驗

  • 回歸系數檢驗

線性關系檢驗

線性關系檢驗是檢驗自變量x和因變量y之間的線性關系是否顯著,或者說,它們之間能否用一個線性模型來表示。

將均方回歸 (MSR)同均方殘差 (MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著。

  • 均方回歸:回歸平方和SSR除以相應的自由度(自變量的個數K)

  • 均方殘差:殘差平方和SSE除以相應的自由度(n-k-1)

H0:β1=0 所有回歸系數與零無顯著差異,y與全體x的線性關系不顯著

計算檢驗統計量F:

Regression32

回歸系數的顯著性檢驗

回歸系數顯著性檢驗的目的是通過檢驗回歸系數β的值與0是否有顯著性差異,來判斷Y與X之間是否有顯著的線性關系.若β=0,則總體回歸方程中不含X項(即Y不隨X變動而變動),因此,變量Y與X之間並不存在線性關系;若β≠0,說明變量Y與X之間存在顯著的線性關系。

Regression34

計算檢驗的統計量:

Regression35

線性關系檢驗與回歸系數檢驗的區別:

線性關系的檢驗是檢驗自變量與因變量是否可以用線性來表達,而回歸系數的檢驗是對樣本數據計算的回歸系數檢驗總體中回歸系數是否為0

  • 在一元線性回歸中,自變量只有一個,線性關系檢驗與回歸系數檢驗是等價的

  • 多元回歸分析中,這兩種檢驗的意義是不同的。線性關系檢驗只能用來檢驗總體回歸關系的顯著性,而回歸系數檢驗可以對各個回歸系數分別進行檢驗

多元線性回歸分析

經常會遇到某一現象的發展和變化取決於幾個影響因素的情況,也就是一個因變量和幾個自變量有依存關系的情況,這時需用多元線性回歸分析。

  • 多元線性回歸分析預測法,是指通過對兩上或兩個以上的自變量與一個因變量的相關分析,建立預測模型進行預測和控制的方法

  • 多元線性回歸預測模型一般式為:

Regression24

調整的多重判定系數:

用樣本容量n和自變量的個數k去修正R^2得到:

Regression36
  • 避免增加自變量而高估R^2

曲線回歸分析:

直線關系是兩變量間最簡單的一種關系,曲線回歸分析的基本任務是通過兩個相關變量x與y的實際觀測數據建立曲線回歸方程,以揭示x與y間的曲線聯系的形式。

曲線回歸分析最困難和首要的工作是確定自變量與因變量間的曲線關系的類型,曲線回歸分析的基本過程:

  • 先將x或y進行變量轉換
  • 對新變量進行直線回歸分析、建立直線回歸方程並進行顯著性檢驗和區間估計
  • 將新變量還原為原變量,由新變量的直線回歸方程和置信區間得出原變量的曲線回歸方程和置信區間

由於曲線回歸模型種類繁多,所以沒有通用的回歸方程可直接使用。但是對於某些特殊的回歸模型,可以通過變量代換、取對數等方法將其線性化,然后使用標准方程求解參數,再將參數帶回原方程就是所求。

實例:某商店各個時期的商品流通費率和商品零售額資料

Regression25

散點圖如下:

Regression26

散點圖顯示出x與y的變動關系為一條遞減的雙曲線。

Regression27 Regression28

多重共線性

回歸模型中兩個或兩個以上的自變量彼此相關的現象

多重共線性帶來的問題有:

  • 回歸系數估計值的不穩定性增強

  • 回歸系數假設檢驗的結果不顯著等

多重共線性檢驗的主要方法:

  • 容忍度
  • 方差膨脹因子(VIF)

容忍度:

Regression37
  • Ri是解釋變量xi與方程中其他解釋變量間的復相關系數;
  • 容忍度在0~1之間,越接近於0,表示多重共線性越強,越接近於1,表示多重共線性越弱。

方差膨脹因子

方差膨脹因子是容忍度的倒數

Regression38
  • VIFi越大,特別是大於等於10,說明解釋變量xi與方程中其他解釋變量之間有嚴重的多重共線性;
  • VIFi越接近1,表明解釋變量xi和其他解釋變量之間的多重共線性越弱。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM