回歸分析法&一元線性回歸操作和解釋


用Excel做回歸分析的詳細步驟

一、什么是回歸分析

“回歸分析”是解析“注目變量”和“因於變量”並明確兩者關系的統計方法。此時,我們把因子變量稱為“說明變量”,把注目變量稱為“目標變量址(被說明變量)”。清楚了回歸分析的目的后,下面我們以回歸分析預測法的步驟來說明什么是回歸分析法:

  回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關系時,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變量和因變量的相關的程度。 

二、回歸分析的目的 

回歸分析的目的大致可分為兩種:

第一,“預測”。預測目標變量,求解目標變量y和說明變量(x1,x2,…)的方程。

y=a0+b1x1+b2x2+…+bkxk+誤差(方程A)

 把方程A叫做(多元)回歸方程或者(多元)回歸模型。a0是y截距,b1,b2,…,bk是回歸系數。當k=l時,只有1個說明變量,叫做一元回歸方程。根據最小平方法求解最小誤差平方和,非求出y截距和回歸系數。若求解回歸方程.分別代入x1,x2,…xk的數值,預測y的值。

第二,“因子分析”。因子分析是根據回歸分析結果,得出各個自變量對目標變量產生的影響,因此,需要求出各個自變量的影響程度。 

希望初學者在閱讀接下來的文章之前,首先學習一元回歸分析、相關分析、多元回歸分析、數量化理論I等知識。

根據最小平方法,使用Excel求解y=a+bx中的a和b。那么什么是最小平方法?

分別從散點圖的各個數據標記點,做一條平行於y軸的平行線,相交於圖中直線(如下圖)

平行線的長度在統計學中叫做“誤差”或者‘殘差”。誤差(殘差)是指分析結果的運算值和實際值之間的差。接這,求平行線長度曲平方值。可以把平方值看做邊長等於平行線長度的正方形面積(如下圖) 

最后,求解所有正方形面積之和。確定使面積之和最小的a(截距)和b(回歸系數)的值(如下圖)。

使用Excel求解回歸方程;“工具”→“數據分析”→“回歸”,具體操作步驟將在后面的文章中具體會說明。

線性回歸的步驟不論是一元還是多元相同,步驟如下:

  • 1、散點圖判斷變量關系(簡單線性);
  • 2、求相關系數及線性驗證;
  • 3、求回歸系數,建立回歸方程;
  • 4、回歸方程檢驗;
  • 5、參數的區間估計;
  • 6、預測;

 

一元線性回歸操作和解釋

摘要

一元線性回歸可以說是數據分析中非常簡單的一個知識點,有一點點統計、分析、建模經驗的人都知道這個分析的含義,也會用各種工具來做這個分析。這里面想把這個分析背后的細節講講清楚,也就是后面的數學原理。


什么是一元線性回歸

回歸分析(Regression Analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。舉個例子來說吧:

比方說有一個公司,每月的廣告費用和銷售額,如下表所示:


案例數據

如果我們把廣告費和銷售額畫在二維坐標內,就能夠得到一個散點圖,如果想探索廣告費和銷售額的關系,就可以利用一元線性回歸做出一條擬合直線:


擬合直線

這條線是怎么畫出來的

對於一元線性回歸來說,可以看成Y的值是隨着X的值變化,每一個實際的X都會有一個實際的Y值,我們叫Y實際,那么我們就是要求出一條直線,每一個實際的X都會有一個直線預測的Y值,我們叫做Y預測,回歸線使得每個Y的實際值與預測值之差的平方和最小,即(Y1實際-Y1預測)^2+(Y2實際-Y2預測)^2+ …… +(Yn實際-Yn預測)^2的和最小(這個和叫SSE,后面會具體講)。

現在來實際求一下這條線:


 

我們都知道直線在坐標系可以表示為Y=aX+b,所以(Y實際-Y預測)就可以寫成(Y實際-(aX實際+b)),於是平方和可以寫成a和b的函數。只需要求出讓Q最小的a和b的值,那么回歸線的也就求出來了。

  簡單插播一下函數最小值怎么求:

首先,一元函數最小值點的導數為零,比如說Y=X^2,X^2的導數是2X,令2X=0,求得X=0的時候,Y取最小值。

那么實質上二元函數也是一樣可以類推。不妨把二元函數圖象設想成一個曲面,最小值想象成一個凹陷,那么在這個凹陷底部,從任意方向上看,偏導數都是0。

因此,對於函數Q,分別對於a和b求偏導數,然后令偏導數等於0,就可以得到一個關於a和b的二元方程組,就可以求出a和b了。這個方法被稱為最小二乘法。下面是具體的數學演算過程,不願意看可以直接看后面的結論。

先把公式展開一下:


Q函數表達式展開

然后利用平均數,把上面式子中每個括號里的內容進一步化簡。例如


Y^2的平均

則:


上式子兩邊×n

 

於是


Q最終化簡結果

然后分別對Q求a的偏導數和b的偏導數,令偏導數等於0。


Q分別對a和b求偏導數,令偏導數為0

進一步化簡,可以消掉2n,最后得到關於a,b的二元方程組為


關於a,b的 二元方程組

最后得出a和b的求解公式:


最小二乘法求出直線的斜率a和斜率b

有了這個公式,對於廣告費和銷售額的那個例子,我們就可以算出那條擬合直線具體是什么,分別求出公式中的各種平均數,然后帶入即可,最后算出a=1.98,b=2.25

最終的回歸擬合直線為Y=1.98X+2.25,利用回歸直線可以做一些預測,比如如果投入廣告費2萬,那么預計銷售額為6.2萬

評價回歸線擬合程度的好壞

我們畫出的擬合直線只是一個近似,因為肯定很多的點都沒有落在直線上,那么我們的直線擬合程度到底怎么樣呢?在統計學中有一個術語叫做R^2(coefficient ofdetermination,中文叫判定系數、擬合優度,決定系數,系統不能上標,這里是R^2是“R的平方”),用來判斷回歸方程的擬合程度。

首先要明確一下如下幾個概念:

總偏差平方和(又稱總平方和,SST,Sum of Squaresfor Total):是每個因變量的實際值(給定點的所有Y)與因變量平均值(給定點的所有Y的平均)的差的平方和,即,反映了因變量取值的總體波動情況。如下:


SST公式

回歸平方和(SSR,Sum of Squares forRegression):因變量的回歸值(直線上的Y值)與其均值(給定點的Y值平均)的差的平方和,即,它是由於自變量x的變化引起的y的變化,反映了y的總偏差中由於x與y之間的線性關系引起的y的變化部分,是可以由回歸直線來解釋的。


SSR公式

 

殘差平方和(又稱誤差平方和,SSE,Sum of Squaresfor Error):因變量的各實際觀測值(給定點的Y值)與回歸值(回歸直線上的Y值)的差的平方和,它是除了x對y的線性影響之外的其他因素對y變化的作用,是不能由回歸直線來解釋的。

這些概念還是有些晦澀,我個人是這么理解的:

就拿廣告費和銷售額的例子來說,其實廣告費只是影響銷售額的其中一個比較重要的因素,可能還有經濟水平、產品質量、客戶服務水平等眾多難以說清的因素在影響最終的銷售額,那么實際的銷售額就是眾多因素相互作用最終的結果,由於銷售額是波動的,所以用上文提到的每個月的銷售額與平均銷售額的差的平方和(即總平方和)來表示整體的波動情況。

回歸線只表示廣告費一個變量的變化對於總銷售額的影響,所以必然會造成偏差,所以才會有實際值和回歸值是有差異的,因此回歸線只能解釋一部分影響

那么實際值與回歸值的差異,就是除了廣告費之外其他無數因素共同作用的結果,是不能用回歸線來解釋的。

因此SST(總偏差)=SSR(回歸線可以解釋的偏差)+SSE(回歸線不能解釋的偏差)

那么所畫回歸直線的擬合程度的好壞,其實就是看看這條直線(及X和Y的這個線性關系)能夠多大程度上反映(或者說解釋)Y值的變化,定義

R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之間,越接近1說明擬合程度越好

假如所有的點都在回歸線上,說明SSE為0,則R^2=1,意味着Y的變化100%由X的變化引起,沒有其他因素會影響Y,回歸線能夠完全解釋Y的變化。如果R^2很低,說明X和Y之間可能不存在線性關系

還是回到最開始的廣告費和銷售額的例子,這個回歸線的R^2為0.73,說明擬合程度還湊合。

四、相關系數R和判定系數R^2的區別

判定系數R^2來判斷回歸方程的擬合程度,表示擬合直線能多大程度上反映Y的波動

在統計中還有一個類似的概念,叫做相關系數R(這個沒有平方,學名是皮爾遜相關系數,因為這不是唯一的一個相關系數,而是最常見最常用的一個),用來表示X和Y作為兩個隨機變量的線性相關程度,取值范圍為【-1,1】。

當R=1,說明X和Y完全正相關,即可以用一條直線,把所有樣本點(x,y)都串起來,且斜率為正,

當R=-1,說明完全負相關,及可以用一條斜率為負的直線把所有點串起來。

如果在R=0,則說明X和Y沒有線性關系,注意,是沒有線性關系,說不定有其他關系。

就如同這兩個概念的符號表示一樣,在數學上可以證明,相關系數R的平方就是判定系數。

變量的顯著性檢驗

變量的顯著性檢驗的目的:剔除回歸系數中不顯著的解釋變量(也就是X),使得模型更簡潔。在一元線性模型中,我們只有有一個自變量X,就是要判斷X對Y是否有顯著性的影響;多元線性回歸中,驗證每個Xi自身是否真的對Y有顯著的影響,不顯著的就應該從模型去掉。

變量的顯著性檢驗的思想:用的是純數理統計中的假設檢驗的思想。對Xi參數的實際值做一個假設,然后在這個假設成立的情況下,利用已知的樣本信息構造一個符合一定分布的(如正態分布、T分布和F分布)的統計量,然后從理論上計算得到這個統計量的概率,如果概率很低(5%以下),根據“小概率事件在一次實驗中不可能發生”的統計學基本原理,現在居然發生了!(因為我們的統計量就是根據已知的樣本算出來的,這些已知樣本就是一次實驗)肯定是最開始的假設有問題,所以就可以拒絕最開始的假設,如果概率不低,那就說明假設沒問題。

其實涉及到數理統計的內容,真的比較難一句話說清楚,我舉個不恰當的例子吧:比如有一個口袋里面裝了黑白兩種顏色的球一共20個,然后你想知道黑白球數量是否一致,那么如果用假設檢驗的思路就是這樣做:首先假設黑白數量一樣,然后隨機抽取10個球,但是發現10個都是白的,如果最開始假設黑白數量一樣是正確的,那么一下抽到10個白的的概率是很小的,但是這么小概率的事情居然發生了,所以我們有理由相信假設錯誤,黑白的數量應該是不一樣的……

總之,對於所有的回歸模型的軟件,最終給出的結果都會有參數的顯著性檢驗,忽略掉難懂的數學,我們只需要理解如下幾個結論:

T檢驗用於對某一個自變量Xi對於Y的線性顯著性,如果某一個Xi不顯著,意味着可以從模型中剔除這個變量,使得模型更簡潔。

F檢驗用於對所有的自變量X在整體上看對於Y的線性顯著性

T檢驗的結果看P-value,F檢驗看Significant F值,一般要小於0.05,越小越顯著(這個0.05其實是顯著性水平,是人為設定的,如果比較嚴格,可以定成0.01,但是也會帶來其他一些問題,不細說了)

下圖是用EXCEL對廣告費和銷售額的例子做的回歸分析的結果(EXCEL真心是個很強大的工具,用的出神入化一樣可以變成超神),可以看出F檢驗是顯著的(Significance F為0.0017),變量X的T檢驗是顯著的(P-value為0.0017),這倆完全一樣也好理解,因為我們是一元回歸,只有一個自變量X。


用Excel做線性回歸分析

還有一點是intercept(截距,也就是Y=aX+b中的那個b)的T檢驗沒有通過,是不顯著的,一般來說,只要F檢驗和關鍵變量的T檢驗通過了,模型的預測能力就是OK的。

最后推薦一個很好的統計學課程

可汗學院公開課:統計學計划詳情 - 網易雲課堂

這門課是統計學入門課程,將涵蓋統計學所有的主要知識,包括:隨機變量、均值方差標准差、統計圖表、概率密度、二項分布、泊松分布、正態分布、大數定律、中心極限定理、樣本和抽樣分布、參數估計、置信區間、伯努利分布、假設檢驗和p值、方差分析、回歸分析等內容。

一共80多條視頻,全長800多分鍾,只能說這是我看過的最好的統計學教程,沒有之一,如果本科能看到這個水平的教程,我也不會靠考場上的紙條過這門課了。

其實如果懂一點真正的統計學,生活中會多一些看問題的角度,還是挺有意思的。

一元線性回歸就說到這里,謝謝大家!

轉自:http://www.jianshu.com/p/fcd220697182#

 

 

使用Excel數據分析工具進行多元回歸分析

 

在“數據”工具欄中就出現“數據分析”工具庫,如下圖所示:

 

 使用Excel數據分析工具進行多元回歸分析

 

給出原始數據,自變量的值在A2:I21單元格區間中,因變量的值在J2:J21中,如下圖所示:

 

 使用Excel數據分析工具進行多元回歸分析

 

假設回歸估算表達式為:

 

 使用Excel數據分析工具進行多元回歸分析

 

試使用Excel數據分析工具庫中的回歸分析工具對其回歸系數進行估算並進行回歸分析:

 

點擊“數據”工具欄中中的“數據分析”工具庫,如下圖所示:

 

 使用Excel數據分析工具進行多元回歸分析

 

在彈出的“數據分析”-“分析工具”多行文本框中選擇“回歸”,然后點擊 “確定”,如下圖所示:

 

 使用Excel數據分析工具進行多元回歸分析

 

彈出“回歸”對話框並作如下圖的選擇:

 

 使用Excel數據分析工具進行多元回歸分析

 

上述選擇的具體方法是:

 

在“Y值輸入區域”,點擊右側折疊按鈕,選取函數Y數據所在單元格區域J2:J21,選完后再單擊折疊按鈕返回;這過程也可以直接在“Y值輸入區域”文本框中輸入J2:J21;

 

在“X值輸入區域”,點擊右側折疊按鈕,選取自變量數據所在單元格區域A2:I21,選完后再單擊折疊按鈕返回;這過程也可以直接在“X值輸入區域”文本框中輸入A2:I21;

 

置信度可選默認的95%。

 

在“輸出區域”如選“新工作表”,就將統計分析結果輸出到在新表內。為了比較對照,我選本表內的空白區域,左上角起始單元格為K10.點擊確定后,輸出結果如下:

 

使用Excel數據分析工具進行多元回歸分析
 

 

第一張表是“回歸統計表”(K12:L17): 

 

其中:

 

Multiple R:(復相關系數R)R2的平方根,又稱相關系數,用來衡量自變量x與y之間的相關程度的大小。本例R=0.9134表明它們之間的關系為高度正相關。(Multiple:復合、多種)

 

R Square:復測定系數,上述復相關系數R的平方。用來說明自變量解釋因變量y變差的程度,以測定因變量y的擬合效果。此案例中的復測定系數為0.8343,表明用用自變量可解釋因變量變差的83.43%

 

Adjusted R Square:調整后的復測定系數R2,該值為0.6852,說明自變量能說明因變量y的68.52%,因變量y的31.48%要由其他因素來解釋。( Adjusted:調整后的)

 

標准誤差:用來衡量擬合程度的大小,也用於計算與回歸相關的其它統計量,此值越小,說明擬合程度越好

 

觀察值:用於估計回歸方程的數據的觀察值個數。

 

 

第二張表是“方差分析表”:主要作用是通過F檢驗來判定回歸模型的回歸效果。

 

該案例中的Significance F(F顯著性統計量)的P值為0.00636,小於顯著性水平0.05,所以說該回歸方程回歸效果顯著,方程中至少有一個回歸系數顯著不為0.(Significance:顯著)

 

第三張表是“回歸參數表”:

 

K26:K35為常數項和b1~b9的排序默認標示.

 

L26:L35為常數項和b1~b9的值,據此可得出估算的回歸方程為:

 

使用Excel數據分析工具進行多元回歸分析

 

 

 

該表中重要的是O列,該列的O26:O35中的 P-value為回歸系數t統計量的P值。

 

值得注意的是:其中b1、b7的t統計量的P值為0.0156和0.0175,遠小於顯著性水平0.05,因此該兩項的自變量與y相關。而其他各項的t統計量的P值遠大於b1、b7的t統計量的P值,但如此大的P值說明這些項的自變量與因變量不存在相關性,因此這些項的回歸系數不顯著

轉載於:http://blog.sina.com.cn/s/blog_a20c88b601014j9x.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM