為什么要進行方差分析?
- 單樣本、兩樣本t檢驗其最終目的都是分析兩組數據間是否存在顯著性差異,但如果要分析多組數據間是否存在顯著性差異就很困難,因此用方差分析解決這個問題;
舉例:t檢驗可以分析一個班男女的入學成績差異;而方差分析可以分析一個班來自各省市地區同學的入學成績。 - 在方差分析中,涉及到控制變量和隨機變量以及觀測變量;
舉例:施肥量是否會給農作物產量帶來顯著影響;這里,控制變量:施肥量,觀測變量:農作物產量,隨機變量:天氣、溫度……
單因素分析
目的:分析單一控制因素影響下的多組樣本的均值是否存在顯著性差異。
適用條件:
- 正態性,每個水平下的因變量應服從正態分布;
- 同方差性,各組之間的具有相同的方差;
- 獨立性,各組之間是相互獨立的。
案例分析:
案例描述:在某一公司下,分析廣告形式對銷售額的影響。(數據來源:《統計分析與SPSS的應用》(第五版)薛薇 第六章)
題目分析:在題目中,廣告形式不至兩種,沒辦法用兩獨立樣本t檢驗分析形式和銷售額之間的顯著性差異,同時,只有一個控制因素,所以采用方差分析中的單因素分析。
提出原假設:廣告形式和銷售額之間不存在顯著性差異。
界面操作步驟:分析—比較均值—單因素ANOVA
關鍵步驟截圖:
分清楚因變量列表和因子;因子:控制變量,因變量列表:觀測變量
結果分析:
單因素方差分析 |
|||||
銷售額 |
|||||
|
平方和 |
df |
均方 |
F |
顯著性 |
組間 |
5866.083 |
3 |
1955.361 |
13.483 |
.000 |
組內 |
20303.222 |
140 |
145.023 |
|
|
總數 |
26169.306 |
143 |
|
|
- 平方和:組間離差平方和(SSA)是由控制變量的不同水平造成的變差,組內離差平方和(SSE)是由隨機變量的不同水平造成的變差;
- df:組間自由度,在本題中根據廣告形式的不同分為四組,所以自由度為k-1=4-1=3;組內自由度n-k=144-k=140;
- 均方:即為方差;
- F=SSA/(k-1)÷(SSE/(n-k))=組間方差/組內方差,F值顯著性大於1,說明控制變量對觀測變量的影響比隨機變量大,反之有效;
- P-值=0.00<0.05,所以拒絕原假設,認為不同的廣告形式和地區對銷售額的平均值產生了顯著影響,不同的廣告形式、地區對銷售額的影響效應不全為0。
單因素進一步檢驗分析:
方差齊性檢驗:在上述描述中提到,滿足單一因素分析的條件是各組別的方差要相同,所以需要方差齊性檢驗;
思路:
- 提出原假設:各組別的方差不存在顯著差異;
- 利用Levene F方法間行檢驗;
- 將p值與ɑ進行比較,判斷各組之間方差是否相同。
用上述題目繼續分析:
首先,假設不同的廣告形式總體的方差相同;
在如同上述截圖得界面中點擊“選項”,得到如圖:
選擇方差同質性檢驗
結果分析:
描述 |
||||||||
銷售額 |
||||||||
|
N |
均值 |
標准差 |
標准誤 |
均值的 95% 置信區間 |
極小值 |
極大值 |
|
下限 |
上限 |
|||||||
報紙 |
36 |
73.2222 |
9.73392 |
1.62232 |
69.9287 |
76.5157 |
54.00 |
94.00 |
廣播 |
36 |
70.8889 |
12.96760 |
2.16127 |
66.5013 |
75.2765 |
33.00 |
100.00 |
宣傳品 |
36 |
56.5556 |
11.61881 |
1.93647 |
52.6243 |
60.4868 |
33.00 |
86.00 |
體驗 |
36 |
66.6111 |
13.49768 |
2.24961 |
62.0442 |
71.1781 |
37.00 |
87.00 |
總數 |
144 |
66.8194 |
13.52783 |
1.12732 |
64.5911 |
69.0478 |
33.00 |
100.00 |
方差齊性檢驗 |
|||
銷售額 |
|||
Levene 統計量 |
df1 |
df2 |
顯著性 |
.765 |
3 |
140 |
.515 |
多重比較檢驗:如果控制變量確實對觀測變量產生了顯著影響,此時就需要進一步確定控制變量的不同水平對觀測變量的影響程度如何;
舉例:在上述題目中,已經確定了廣告形式對銷售量有影響,此時就要確定哪種形式對銷售量的影響最大?
檢驗步驟:
- 原假設:第i和第j個水平下觀測量的總體均值μi和μj不存在顯著差異;
- 構造檢驗統計量:(常用的方法介紹)
- LSD方法:最小顯著性差異法:檢驗敏感性高;
- Boferroni 方法;
- Tukey方法;
- Scheffe方法;
- S-N-K方法;
- 兩兩比較,選出需求的形式。
繼上述題目,繼續分析:
在如同上述截圖得界面中點擊“兩兩比較”,得到如圖:
具體結果表格見:《統計分析與SPSS的應用》(第五版)薛薇 第六章
分析總結:
- 多重表比較檢驗_表主要體現了:LSD方法的檢驗敏感度更高;
- 在相似子性集_表體現:選擇一個更加適合該項目的一種方式。
趨勢檢驗:
在如同上述截圖得界面中點擊“對比”,得到如圖:
結果分析:
單因素方差分析 |
|||||||
銷售額 |
|||||||
|
平方和 |
df |
均方 |
F |
顯著性 |
||
組間 |
(組合) |
5866.083 |
3 |
1955.361 |
13.483 |
.000 |
|
線性項 |
對比 |
2101.250 |
1 |
2101.250 |
14.489 |
.000 |
|
偏差 |
3764.833 |
2 |
1882.417 |
12.980 |
.000 |
||
組內 |
20303.222 |
140 |
145.023 |
|
|
||
總數 |
26169.306 |
143 |
|
|
主要看:線性項的對比:顯著性:比較p和ɑ,若p>ɑ,則表明拒絕原假設,認為存在的非零相關性的把握程度不高,若p<ɑ,正相反。
先驗對比檢驗:
參考書籍:
《SPSS統計分析從零開始》吳駿
《SPSS統計分析基礎教程》張文彤
《統計分析與SPSS的應用》(第五版)薛薇