設4個總體的均值分別為$\mu_1$、$\mu_2$、$\mu_3$、$\mu_4$,如果要用假設檢驗來檢驗它們是否相等,則需要進行$C_{4}^{2}=6$次檢驗,而且每次檢驗時犯第Ⅰ類錯誤的概率會累積,在$95%$的置信水平下,6次檢驗后置信水平會降低到$0.95^{6}=0.735$。
為了避免這種兩兩檢驗帶來的問題,我們需要同時考慮所有的問題,也就是方差分析。
方差分析
方差分析(ANOVA)是檢驗多個總體均值是否相等的方法。雖然它形式上是比較總體均值,但是本質上是研究變量之間的關系。這里的變量中,自變量是分類型的,因變量是數值型的,所研究的關系是是指自變量對因變量的影響。因此,我們可以說:
方差分析是通過檢驗各個總體均值是否相等來判斷分類型自變量對數值型自變量是否有顯著影響。
示例
要研究行業是否會顯著影響被投訴次數,也就是要檢驗4個行業被投訴次數的均值是否相等。此處的行業就是分類型自變量,各行業被投訴次數就是數值型因變量。
因素
在方差分析中,所要檢驗的對象稱為因素(factor),因素的不同表現稱為水平(treatment),因素的每一個水平都可以看作一個總體,每個因素水平下得到樣本數據稱為觀測值。示例中的行業就是因素,它有4個水平。
基本思想
為了分析分類型自變量對數值型因變量的影響,需要分析數據誤差的來源。
因素的不同水平下的均值會有差異,但這種差異有可能是由抽樣誤差帶來的,所以需要檢驗這種差異是否顯著。雖然我們感興趣的是均值,但我們在判斷時需要借助於方差(構造檢驗統計量),這也是方差分析這一名稱的來源。
誤差分解
來自於水平內部的數據誤差稱為組內誤差,它是由抽樣的隨機性造成的隨機誤差。顯然,組內誤差只含有隨機誤差。
來自不同水平之間的數據誤差稱為組間誤差,它可能由抽樣造成的隨機誤差,也可能是由因素的不同水平造成的系統誤差。組間誤差是隨機誤差和系統誤差的總和。
反映全部數據誤差大小的平方和稱為總平方和(SST),反映組內誤差大小的平方和稱為組內平方和(SSE),反映組間誤差大小的平方和稱為組間平方和(SSA)。
誤差分析
如果因素的不同水平對每個水平下的均值沒有影響,則組間誤差只有隨機誤差而沒有系統誤差。組內誤差和組間誤差的均方之比應該接近1;否則它們的比值就會大於1,當大到某個程度時,就認為因素的不同水平之間存在着顯著差異,也即自變量(示例中的行業因素)對因變量(示例中的不同行業的被投訴次數)有顯著影響。
由以上的分析可知,在方差分析中,要研究分類型自變量對因變量的影響,在形式上就轉化為了檢驗不同總體(因素的不同水平)的均值是否相等。
基本假定
方差分析有3個基本假定:
1. 每個總體都應符合正態分布;
2. 各個總體的方差$\sigma^2$必須相同;
3. 觀測是獨立的。
方差分析的原假設和備擇假設
設因素有k個水平,每個水平的均值為$\mu_1,\mu_2,\cdots,\mu_k$,檢驗均值是否相等,
$H_0:\mu_1=\mu_2=\cdots=\mu_k$
$H_1:\mu_1,\mu_2,\cdots,\mu_k$不全相等
在基本假定的條件下,如果原假設為真,則由4個總體抽取出來的4個樣本均值的抽樣分布應如圖所示:
如果原假設不成立,則4個樣本均值的抽樣分布為:
單因素方差分析
只涉及一個分類型自變量的方差分析稱為單因素方差分析。
數據結構
提出假設
$H_0:\mu_1=\mu_2=\cdots=\mu_k$
$H_1:\mu_1,\mu_2,\cdots,\mu_k$不全相等
構造檢驗統計量
1.計算各樣本均值
$$\bar{x_i}=\frac{\sum_{j=i}^{n_i}x_{ij}}{n_i},i=1,2,\cdots,k$$
2.計算全部觀測值的總均值
$$\bar{\bar{x}}=\frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i}x_{ij}}{n}$$
3.計算各誤差平方和
3.1 總平方和
全部觀測值與總均值的誤差平方和
$$SST=\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij}-\bar{\bar{x}})^2$$
3.2 組間平方和
各組均值與總均值的誤差平方和,它反映自變量對因變量的影響,稱為自變量效應。
$$SSA=\sum_{i=1}^{k}n_i(\bar{x_i}-\bar{\bar{x}})^2$$
3.3 組內平方和
每個水平的各樣本數據與其組均值的誤差平方和,它反映自變量之外的其他因素對因變量的總影響,稱為殘差效應。
$$SSE=\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij}-\bar{x_i})^2$$
三個平方和之間的關系為:
$$SST=SSA+SSE$$
4.計算統計量
為了消除觀測值的多少對於誤差平方和的大小的影響,需要用各平方和除以自由度,結果稱為均方(mean square),也稱方差。
SST的自由度為n-1,SSA的自由度為k-1,SSE的自由度為n-k,n為全部觀測值的個數,k為因素水平的個數。
SSA的均方稱為組間方差(MSA):
$$MSA=\frac{SSA}{k-1}$$
SSE的均方稱為組內方差(MSE):
$$MSE=\frac{SSE}{n-k}$$
將組間方差與組內方差進行對比,就得到了所需的檢驗統計量F,當$H_0$為真時,有
$$F=\frac{MSA}{MSE} \sim F(k-1,n-k)$$
統計決策
判斷因素的水平對其觀測值是否有顯著影響,也就是比較組間方差與組內方差之間的差異大小,將檢驗統計量$F$的值與給定的$\alpha$下的臨界值$F_{\alpha}$進行比較,就可以作出對原假設$H_0$的決策。
若$F>F_{\alpha}$,則拒絕原假設,因素水平對觀測值有顯著影響;
若$F<F_{\alpha}$,則接受原假設,不能認為因素水平對觀測值有顯著影響。
方差分析表
關系強度的測量
當組間平方和與組內平方和之比比1大到一定程度時,我們認為自變量對因變量有顯著的影響,可以用組間平方和占總平方和的比例來度量自變量與因變量之間的關系強度,記為$R^2$:
$$R^2=\frac{SSA}{SST}$$
$R^2$的平方根$R$可以測量自變量與因變量之間的關系強度,它與相關系數$r$類似。
方差分析中的多重比較
我們想知道多個總體均值中,究竟是哪兩個均值不同,需要使用多重比較方法。,它通過對總體均值之間的配對比較來檢驗哪些均值之間存在差異。
多重比較方法有很多種,這里介紹最小顯著差異方法(LSD),其步驟如下:
雙因素方差分析
方差分析中涉及兩個分類自變量時,稱為雙因素方差分析。如果2個因素對因變量的影響是相互獨立的,則稱為無交互作用的雙因素方差分析;如果2個因素結合后產生新的效應,則稱為有交互作用的雙因素方差分析。
無交互作用的雙因素方差分析
數據結構
將一個因素放在行的位置,稱為行因素,設有k個水平;另一個因素放在列的位置,稱為列因素,設有r個水平。
$\bar{x_{i\cdot}}$是行因素的第i個水平下的觀測值的平均值:
$$\bar{x_{i\cdot}}=\frac{\sum_{j=1}^{r}x_{ij}}{r},i=1,2,\cdots,k$$
$\bar{x_{\cdot j}}$是列因素的第j個水平下的觀測值的平均值:
$$\bar{x_{\cdot j}}=\frac{\sum_{i=1}^{k}x_{ij}}{k},j=1,2,\cdots,r$$
$\bar{\bar{x}}$所有觀測值的總平均值:
$$\bar{\bar{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{r}x_{ij}}{kr},j=1,2,\cdots,r$$
提出假設
對行因素提出的假設為:
$H_0:\mu_1=\mu_2=\cdots=\mu_k$
$H_1:\mu_1,\mu_2,\cdots,\mu_k$不全相等
對列因素提出的假設為:
$H_0:\mu_1=\mu_2=\cdots=\mu_r$
$H_1:\mu_1,\mu_2,\cdots,\mu_r$不全相等
檢驗統計量
需要分別確定行因素和列因素的統計量,從總平方和的分解入手,總平方和是全部樣本觀測值與總樣本均值的誤差平方和:
$$SST=\sum_{i=1}^{k}\sum_{j=1}^{r}(x_{ij}-\bar{\bar{x}})^2=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{i \cdot}}-\bar{\bar{x}})^2+\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{\cdot j}}-\bar{\bar{x}})^2+\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{ij}}-\bar{x_{i \cdot}}-\bar{x_{\cdot j}}+\bar{\bar{x}})^2$$
第一項是由行因素產生的誤差平方和,記為SSR:
$$SSR=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{i \cdot}}-\bar{\bar{x}})^2$$
第二項是由列因素產生的誤差平方和,記為SSC:
$$SSC=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{\cdot j}}-\bar{\bar{x}})^2$$
第三項是除行因素和列因素外的剩余因素產生的誤差平方和,稱為隨機誤差平方和,記為SSE:
$$SSE=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x_{ij}}-\bar{x_{i \cdot}}-\bar{x_{\cdot j}}+\bar{\bar{x}})^2$$
上述平方和的關系是
$$SST=SSR+SSC+SSE$$
SST的自由度為$kr-1$,SSR的自由度為$k-1$,SSC的自由度為$r-1$,SSE的自由度為$(k-1)(r-1)$。
行因素的均方(MSR)為
$$MSR=\frac{SSR}{k-1}$$
列因素的均方(MSC)為
$$MSC=\frac{SSC}{r-1}$$
隨機誤差的均方(MSE)為
$$MSE=\frac{SSE}{(k-1)(r-1)}$$
檢驗行變量對因變量的影響,采用統計量$F_R$:
$$F_R=\frac{MSR}{MSE} \sim F(k-1,(k-1)(r-1))$$
檢驗行變量對因變量的影響,采用統計量$F_C$:
$$F_C=\frac{MSC}{MSE} \sim F(r-1,(k-1)(r-1))$$
統計決策
將$F_R$和$F_C$與臨界值$F_{\alpha}$進行比較。
如果$F_R>F_{\alpha}$,則拒絕原假設$H_0:\mu_1=\mu_2=\cdots=\mu_k$,行因素對觀測值有顯著影響;
如果$F_C>F_{\alpha}$,則拒絕原假設$H_0:\mu_1=\mu_2=\cdots=\mu_r$,列因素對觀測值有顯著影響。
雙因素方差分析表
關系強度的測量
將行因素和列因素的平方和加在一起,可反映兩個自變量對因變量的聯合效應,聯合效應與總平方和的比值定義為$R^2$,其平方根$R$反映了這兩個自變量合起來與因變量之間的關系強度:
$$R^2=\frac{SSR+SSC}{SST}$$
雙因素方差分析的誤差平方和比分別進行單因素方差分析時的平方和更小。因為在雙因素方差分析中,誤差平方和減少了殘差效應;而分別作單因素方差分析時,將行因素作為自變量,則列因素被包含在殘差中;將列因素作為自變量,則行因素被包含在殘差中。因此,進行雙因素方差分析要優於分別進行單因素方差分析。
有交互作用的雙因素方差分析
如果2個因素搭配在一起會對因變量產生新的效應,就要考慮交互作用帶來的影響。
方差分析表
總平方和:
$$SST=\sum_{i=1}^{k}\sum_{j=1}^{r}\sum_{l=1}^{m}(x_{ij}-\bar{\bar{x}})^2$$
行變量平方和:
$$SSR=rm\sum_{i=1}^{k}(\bar{x_{i \cdot}}-\bar{\bar{x}})^2$$
列變量平方和:
$$SSC=km\sum_{j=1}^{r}(\bar{x_{\cdot j}}-\bar{\bar{x}})^2$$
交互作用平方和:
$$SSRC=m\sum_{i=1}^{k} \sum_{j=1}^{r}(\bar{x_{ij}}-\bar{x_{i \cdot}}-\bar{x_{\cdot j}}+\bar{\bar{x}})^2$$
誤差平方和:
$$SSE=SST-SSR-SSC-SSRC$$