內容目錄
- 統計分析模型概述
- 方差分析模型
- 線性回歸模型
在實際的業務中,我們常常需要對一些業務問題進行建模,運用統計分析模型來解決問題,接下來我們就進入統計學習的進階階段,了解一下統計分析模型有哪些。
1 統計分析方法體系
變量測量尺度
多變量統計分析方法分類
當我們需要根據某些因素(自變量)去預測結果(因變量)時,例如:根據房子的一些信息(面積,樓層,地理位置等)去預測未來的房價,並按照不同的情況分類如下:
2 方差分析模型
2.1 什么是方差分析?
方差分析是在20世紀20年代發展起來的一種統計方法,它是由英國統計學家費希爾在進行實驗設計時為解釋實驗數據而首先引入的。
方差分析(analysis of variance ANOVA) 就是通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。
從定義上可以得出:在研究一個(或多個)分類型自變量與一個數值型因變量之間的關系時,方差分析就是其中的主要方法之一。他跟回歸分析方法有許多相似之處,但又有本質區別。
從表面上看,方差分析是檢驗多個總體均值是否相等的統計分析方法,但本質上它是所研究的分類型自變量對數值型因變量的影響,例如:變量之間有沒有關系,關系的強弱等問題。
方差分析根據分類型自變量的多少,分為:單因素方差分析,多因素方差分析
舉個栗子
消費者協會經常會受到來到消費者對各行各業的各種投訴,現在消費者協會想研究一下,不同行業的服務質量是否存在顯著差異,因此對不同行業隨機不同數量的公司,抽取如下數據進行測試。
分析:從方差分析的概念中,我們知道方差分析主要判斷分類型自變量對數值型因變量是否有顯著影響。
這里的自變量:就是零售業、旅游業、航空公司和家電制造業
因變量:這些行業統計出來的投訴次數,
分析目的:分析不同行業對於被投訴次數是否有顯著影響
數據如圖:
2.2 理解幾個概念
因素或因子:要檢驗的對象,本例子中,行業是要檢驗的對象,因此行業就是因素,因為只有一個因素,因此稱為單因素方差分析
水平或處理:因素的不同表現,零售業、旅游業、航空公司和家電制造業是行業的具體表現,就是水平或處理。
觀測值:每個因子水平下得到的樣本數據稱為觀測值,表中得出的每個行業的投訴數量則為觀測值。
2.3 方差分析的基本假定
1 每個總體都應服從正態分布,例如:本例子中要求每個行業被投訴的次數必須服從正態分布
2 各個總體的方差 必須相同,也就是說,各組觀察數據是從具有相同方差的正態總體中抽取的,例如:本例子中要求每個行業的方差都相同。
3 觀測值是獨立的。本例子中,每個企業被投訴次數與其他企業相互獨立。
2.4 方差分析的原理
為了分析分類型自變量對數值型因變量的影響,需要從數據誤差來源分析。
從方差分析的基本假定中可以看出,對於分類型自變量而言,他們的總體方差相同,並且服從正態分布,相當於最終比較的是他們之間的均值是否相等,如果相等,則代表來自於同一個總體,則他們之間就沒有顯著性差異,若均值不相等,則有可能是兩個原因:
1 抽樣誤差造成的后果
2 他們來不同的總體,因此存在顯著性差異
那我們要分析的就是從是否是抽樣誤差造成的入手,計算相關數據,若最終得出如果是抽樣誤差的概率P非常小,小於a,則代表自變量之間存在顯著性差異。
2.5 單因素方差分析
方差分析中只涉及一個分類型自變量
接下來,我們進行實際操作
還是上述案例
分析不同行業對於服務質量是否存在顯著差異
1.提出假設
設均值為μ
:
=
=
=
自變量對因變量沒有顯著影響
:
(i = 1,2,3,4) 不全相等 自變量對因變量有顯著影響
2.構建檢驗的統計量
計算各樣本均值及總體均值
計算總誤差平方和(SST)
SST 總平方和,它是全部數據與總體均值的誤差平方和,是對全部數據總誤差程度的度量
計算組間平方和(SSA)
SSA是各組均值與總體均值的誤差平方和,SSA反映的是各樣本之間的差異程度,又稱為因素平方和,是對隨機誤差和系統誤差大小的衡量。
計算方法:每組的均值與總均值誤差平方和*改組的數據個數
計算組內平方和(SSE)
它是每個水平或組的各樣本數據與其組均值的誤差平方和,反映了每個樣本各觀測值的離散程度。SSE是對隨機誤差大小的衡量,它反映了除自變量對因變量的影響因素之外,其他因素對因變量的影響,因此SSE也稱為殘差變量。
計算方式如下:
其中 三者之間的關系如下圖,可通過數據驗證
計算統計量
由於誤差平方和大小與觀測值有關,為了消除觀測值多少對誤差平方和和大小的影響,需要對其平均,也就是用平方和除以自由度,這一結果稱為均方,也稱為方差,三個平方和所對應的自由度分別為:
SST的自由度為n-1,其中n為全部觀測值的個數,本題中n=23
SSA的自由度為k-1,其中k為因素水平(總體)的個數,本題中 k = 4
SSE的自由度為n-k
我們其實是要比較SSA與SSE,因為我們確認SSE,即組內誤差來自隨機誤差,那我們就以SSE為基准,去比較SSA,若二者相差不大,則認為組間誤差也僅僅是隨機誤差而沒有系統誤差,而由於二者之間的數量級不一樣(自由度),難以直接比較,所以我們可以比較二者的均方誤差:
MSA (組間均方)= =
=
=485.536231884057
MSE(組內均方) = =
=
=142.526315789474
將上述MSA與MSE對比,即得到需要的檢驗統計量F,當 為真時,二者的比值服從分子為自由度k-1,分母為自由度n-k的F分布
F = ~F(k-1,n-k)
計算得出F = 3.40664269047159
3 統計決策
如果原假設正確,則表明只有隨機誤差,沒有系統誤差,那MSA與MSE的差異就不會太大,反之,則代表原假設不正確,在本實例中,如果行業對被投訴次數沒有影響,則四個行業的被投訴次數均值之間的差異和每個行業被投訴次數的內部差異相比,二者就不會相差太大;那現在的問題演變成計算得出的F統計量,如何去評判到底是否存在顯著性差異,由於F統計量服從F分布,這時可以給定顯著性水平a的臨界值F與計算得出的F統計量進行對比,如何對原假設做出對應決策。
本例子中F= 3.40664269047159
假設取a = 0,05
分子自由度df = 3
分母自由度 = 19
查F表得出 (3,19) = 3.127
得出: F >
因此拒絕原假設,行業對於被投訴次數有顯著影響。
有興趣的同學還可以了解一下關系強弱的度量 的實現過程。
但是如果按照上述的步驟,計算下來實在太麻煩了,不過沒關系,Excel專門提供了方差分析的功能,操作如下,簡單幾步,就全部實現啦
使用Excel進行方差分析

若在【數據選項卡】中未找到數據分析功能按鈕,則需要單獨設置

Excel得出的結果
SPSS操作單因素方差分析
操作如下:

在進行決策時,可以直接利用方差分析表中的P值與顯著性水平α的進行比較,若P<α,則拒絕原假設;若P>α,則不能拒絕原假設。在本題中P=0.038756<0.05,則拒絕原假設。
4 多重比較
但是我們現在只知道,他們之間有顯著性差異,具體是哪些行業有差異,我們並未體現,因此需要進一步進行兩兩比較:
常用的方法有:
LSD法:
是由費希爾提出的最小顯著差異方法(least significant difference),實際上就是t檢驗的變形,只是在變異和自由度的計算上利用了整個樣本信息,因此仍然存在放大一錯誤的問題。
Scheffe(雪費)法:
當各組人數不相等,或者想進行復雜的比較時,用此方法較為穩妥,但它相對比較保守。
S-N-K法:
是運用最廣泛的一種兩兩比較方法,它采用Student Range分布進行所有各組均值間的配對比較。該方法保證在H0真正成立時總的α水准等於實際設定值,即控制了一類錯誤。
下面演示scheffe檢驗的操作方式:

結果顯示:
解釋:處於同一列的差異不大,那從上圖可以看出,航空公司與家電制造業被投訴次數之間有顯著性差異
3 回歸分析模型
3.1 相關分析與回歸分析對比
說回歸分析之前,先聊聊相關分析與回歸分析的區別
相關關系:變量之間存在的不確定的數量關系,稱為相關關系
先來看這幅圖
隨機變量X與Y的相關系數(從協方差引申過來)
其中 Cov(X,Y) = E{[X-E(X)][Y-E(Y)]} 協方差公式。
從上圖中,我們可以看出左圖相對離散,右圖相對集中
從相關角度分析:則右圖比左圖的相關性更強,呈現正相關,因為隨着隨機變量X變量,Y整體呈現同方向上升走勢;而左圖則隨着X的變化,Y大體是呈上升,但會有更多的離散點。
從回歸角度分析:則隨着X變化,Y的變化大小左圖比右圖更大,它重點描述的是X變化對Y帶來的具體大小的影響變化,而相關分析只能告訴你X與Y之間是否存在聯系,聯系的強弱如何,並不是用具體數值來體現變化的大小。
但是實際上他們描述的問題是一樣的,只是各自側重點不同而已。
回歸分析和相關分析都是研究變量間關系的統計學課題,它們的差別主要是:
1、在回歸分析中,y被稱為因變量,處在被解釋的特殊地位,而在相關分析中,x與y處於平等的地位,即研究x與y的密切程度和研究y與x的密切程度是一致的;
2、相關分析中,x與y都是隨機變量,而在回歸分析中,y是隨機變量,x可以是隨機變量,也可以是非隨機的,通常在回歸模型中,總是假定x是非隨機的;
3、相關分析的研究主要是兩個變量之間的密切程度,而回歸分析不僅可以揭示x對y的影響大小,還可以由回歸方程進行數量上的預測和控制.
3.2 回歸分析模型介紹
研究一個連續型變量(因變量)的取值隨着其他變量(自變量)的數值變化而變化的趨勢
通過回歸方程解釋兩變量之間的關系顯得更為精確,可以計算出自變量改變一個單位時因變量平均改變的單位數量,這是相關分析無法做到的。
除了描述兩變量的關系以外,通過回歸方程還可以進行預測和控制,這在實際工作中尤為重要。
回歸分析假定自變量對因變量的影響強度是始終不變的,如公式所示:
對於因變量的預測值可以被分解成兩部分:
常量:x取值為0時y的平均估計量,可以被看成是一個基線水平
回歸部分:它刻畫因變量Y的取值中,由因變量Y與自變量X的線性關系所決定的部分,即可以由X直接估計的部分。
解釋一下公式
a:常數項,表示自變量取值均為0時因變量的平均水平,4回歸直線在y軸上的截距
b:回歸系數,在多變量回歸中也稱偏回歸系數。自變量X改變一個單位,Y估計值的改變了,即回歸直線的頻率。
殘差
估計值與每個實測值之間的差被稱為殘差。它刻畫了因變量y除了自變量x以外的其他所有未進入該模型,或未知但可能與y有關的隨機和非隨機因素共同引起的變異,即不能由x直接估計的部分。
為了方程可以得到估計,我們往往假定 服從正態分布N(0,
)
= a + bx +
3.3 模型的幾個假定條件
在一元線性回歸模型中,y是x的線性函數(a+bx)加上誤差項 ,a+bx反映了由於x的變化而引起的y的線性變化;
是被稱為誤差項的隨機變量,反映了除x和y之間的線性關系之外的隨機因素對y的影響,是不能由x和y的線性關系所解釋的變異性,其中a和b稱為模型的參數。
- 1 因變量y與自變量x之間具有線性關系
- 2 在重復抽樣中,自變量x的取值是固定的,即假定x是非隨機的
- 3 誤差項
是一個期望值為0的隨機變量
- 4 對於所有的x值,
的方差
都相同,這意味着對於一個特定的x值,y的方差也等於
- 5 誤差項
是一個服從正態分布的隨機變量,且獨立,即
~ N(0,
)
3.4 回歸方程
根據回歸方程的假定, 的期望值為0,因此y的期望值E(y) =
+
x ,也就是說y的期望值是x的線性函數,因此因變量y的期望值如何變化依賴於自變量x的方程稱為回歸方程,一元線性回歸方程的形式為:
3.5 估計回歸方程
如果回歸方程 和
已知,對於一個給定的x值,根據解析式可以計算出y值,但是總體回歸參數往往是未知的,需要通過樣本數據去估計,用樣本統計量,則估計的回歸方程式:
3.6 最小二乘法
觀測值與估計值的差的平方和
計算出觀測值與估計值的差的平方和的最小值來求未知參數的值。
3.7 判定系數
線性回歸方程的最優情況,就是所有的觀測點都落在這條擬合好的直線上,但是這種情況一般都不存在,那退一步講,如果各觀測點越是緊密圍繞直線,說明直線對觀測數據的擬合程度越好,反之越差。回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優度,為說明直線的擬合優度,需要計算判定系數。
因變量y的取值是不同的,y的這種波動稱為變差,變差計算可根據實際觀測值y與其均值之差( -
)來表示,而n個觀測值的總變差可由這些離差的平方和表示,稱為總平方和,記為SST
根據圖可知
因此公式可轉化為
其中 是實際觀測點與回歸值的殘差平方和,它是除了x對y的線性影響之外的其他因素引起的y的變化部分,是不能由回歸直線來解釋的變差部分,稱為殘差平方和或誤差平方和,記為SSE。
看作是由於自變量x的變化引起的y的變化,而其平方和則反映了y的總體變差中由於x與y之間的線性關系引起的y的變化部分 ,它是可以由回歸直線解釋y的變差部分 ,記為回歸平方和,SSR
總平方和(SST)= SSR(回歸平方和) + SSE (殘差平方和)
回歸直線擬合的好壞取決於SSR及SSE的大小,或者說取決於SSR占SST的比例的大小
各觀測值越靠近直線,則SSR/SST 則越大,直線擬合的越好。
回歸平方和占總平方和的比例稱為判定系數,記為:
判定系數 測度了回歸直線對觀測數據的擬合程度,取值范圍[0,1],若觀測值全部落在直線上,則
= 1,如果x變化y始終在均值上,則
= 0
我們之前學習的相關分析中的r,其實二者都是來判斷二者相關強弱的數據,這里的r就是 的平方根,其實是一個指標啦。
案例:
分析銷量的影響因素
某公司准備在國內開幾家分店,於是提供了目前已開設分店的銷售數據以及分店所在城市的16以上的人數,顯分析一下城市所在人數對於銷售的影響大小。
分析步驟如下:
做出散點圖,觀察變量間的趨勢
操作步驟

結果如下:
從圖中可以看出,要分析是否呈現線性,是否有離群點,是否存在一定趨勢
分析后大體滿足
擬合模型
= a + bx +
Excel操作

結果輸出:
得出結果a = 6.8 ,b = 1.8
y = 6.8+1.8x
如何預測呢?
簡單,把x帶入,求出y值就可以啦。