01.前言
在前面我們講過簡單的單因素方差分析,這一篇我們講講雙因素方差分析以及多因素方差分析,雙因素方差分析是最簡單的多因素方差分析。
單因素分析就是只考慮一個因素會對要比較的均值產生影響,而多因素分析是有多個因素會對均值產生影響。
需要注意的是一個因素可能會有不同的水平值,即不同的取值。比如要判斷某一款葯對某種病症有沒有效果,服用不同的劑量效果應該是不一樣的,雖然因素都是服葯這一個因素,但是不同的葯劑量代表不同的水平。
雙因素(多因素)方差分析又可以分為兩種,一種是有交互作用的,一種是沒有交互作用的。啥意思呢?什么是交互作用呢?
比如我們大家所熟知的,牛奶和葯是不可以一起吃的,如果單獨喝牛奶有助於身體蛋白質的補充,如果單獨吃葯可以有助於治療病症,但是牛奶和葯同時吃就會把兩者的作用抵消掉。這種兩者之間的相互作用就可以理解成是交互作用,當然了,有的時候交互是正向呢,有的時候是負向的。
02.無交互作用方差分析
現在有如下一份不同品牌不同地區的產品銷量數據表,想要看一下不同品牌和不同地區這兩個因素是否對銷量有顯著性影響:
我們先來看看無交互作用的雙因素方差分析具體怎么做呢,所謂的無交互也就是假設品牌和地區之間是沒有交互作用的,相互不影響,只是彼此單獨對銷量產生影響。
前面單因素方差分析中,我們是用F值去檢驗顯著性的,多因素方差分析也同樣是用F值.
F = 組間方差/組內方差。
對於沒有交互作用的多因素,可以單純理解為多個單因素。也就是你可以單獨去看品牌對銷量的影響,然后再單獨去看地區對銷量的影響。
那單獨怎么看呢?這就回到了我們前面講過的單因素方差分析。
我們先來計算品牌的組內平方和:
SSA = (每個品牌的均值 - 全部銷量均值)^2*每個品牌內樣本數 = (344.20-328.45)^2*5 + (347.80-328.45)^2*5 + (337.00-328.45)^2*5 + (284.80-328.45)^2*5 = 13004.55
我們再來計算地區的組內平方和:
SSB = (每個地區的均值 - 全體銷量均值)^2*每個地區內樣本數 = (339.00-328.45)^2*4 + (330.25-328.45)^2*4 + (339.25-328.45)^2*4 + (318.25-328.45)^2*4 = 2011.7
接着我們來計算全部平方和:
SST = (每個值-總體均值)^2 = 17888.95
除此之外還有一個平方和:
SSE = SST - SSA - SSB
這部分是除品牌和地區以外的其他因素所產生的,稱為隨機誤差平方和。
有了平方和以后,我們同樣需要求取均方,而均方 = 平方和/自由度。
SST的自由度 = 總水平數 - 1 = 19 SSA的自由度 = 品牌的水平數 - 1 = 3 SSB的自由度 = 地區的水平數 - 1 = 4 SSE的自由度 = SSA的自由度*SSB的自由度 = 12
平方和有了,自由度也有了,均方MS也就可以求出來了,接下來進入到最重要的F值求取,
品牌因素的F值 = SSA/SSE 地區因素的F值 = SSB/SSE
最后可以通過查F值表獲得在置信度為95%的情況下時的F邊界值表,然后和實際的F值作比較,最后做出是否顯著的判斷。如下表:
03.有交互作用方差分析
某交通部門想要知道高峰期與路段是否會對汽車的行車時間有影響,通過人工采集得到了如下數據:
本次分析需要考慮峰期與路段之間的交互作用,某些路段的峰期行車時間可能異常偏高或偏低等。
和無交互作用的多因素方差分析流程類似,我們先計算峰期的平方和:
SSA = (每個峰期內的均值-總體均值)^2*每個峰期內樣本數 = (23.2-20.25)^2*10 + (17.3-20.25)^2*10 = 174.05
再來計算路段的平方和:
SSB = (每個路段內的均值-總體均值)^2*每個路段內樣本數 = (22.4-20.25)^2*10 + (18.1-20.25)^2*10 = 92.45
再來計算交互作用的平方和:
SSAB = (每個路段&峰期內的均值-該路段內的均值-該峰期內的均值+總體均值)^2*每個區間內的樣本數 = (25.4-23.2-22.4+20.25)^2*5 + (21-23.2-18.1+20.25)^2*5 + (19.4-17.3-22.4+20.25)^2*5 + (15.2-17.3-18.1+20.25)^2*5 = 0.05
接着計算全部平方和:
SST = (每個值-總體均值)^2 = 329.75
最后來計算誤差平方和:
SSE = SST - SSA - SSB - SSAB
SST的自由度 = 總樣本數 - 1 = 19 SSA的自由度 = 峰期數 - 1 = 1 SSB的自由度 = 路段數 - 1 = 1 SSAB的自由度 = SSA的自由度*SSB的自由度 = 1 SSE的自由度 = SST的自由度 - SSA的自由度 - SSB的自由度 - SSAB的自由度
經過求均方,查F表,就可得到如下表:
04.方差分析與回歸分析異同
上面通過以有無交互作用的雙因素方差分析為例,給大家把多因素方差分析中涉及到的計算過程都演示了一遍,實際工作中我們是不需要自己手動進行計算的,直接通過Excel、Python都可以計算得到。以后專門講解工具如何實現。
通過上面的多因素方差分析,我們就可以得出來不同因素對某一目標值(銷量/行車時間等)的影響情況,你可能會有這樣的疑問,那這和多元回歸有什么區別呢?多元回歸不也是求取多個x和一個y的關系么?那這兩個是一樣的嗎?
還是有些不太一樣的,方差分析只是告訴你某個因素的影響顯著不顯著,而沒有告你影響有多大,回歸分析是告訴你具體影響有多大。方差分析是一種定性分析,解決有沒有的問題;回歸分析是一種定量分析,解決有多少的問題。
————————————————
版權聲明:本文為CSDN博主「俊紅的數據分析之路」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/junhongzhang/article/details/102645234