回歸分析12:方差分析模型


Chapter 12:方差分析模型

7.1 單因素方差分析

7.1.1 單因素方差分析模型

考慮一般的單因素方差分析問題,稱所考慮的因素為因素 \(A\) ,假設它有 \(a\) 個水平。方差分析的目的是比較這 \(a\) 個水平的差異。假定對第 \(i\) 個水平,可觀測的指標 \(y\) 如下表所示:

\[\begin{array}{|c|c|c|} \hline \text{Levels} & \text{Population Distibution} & \text{Sample Observations} \\ \hline 1 & N\left(\mu_1,\sigma^2\right) & y_{11},y_{12},\cdots,y_{1n_1} \\ 2 & N\left(\mu_2,\sigma^2\right) & y_{21},y_{22},\cdots,y_{2n_2} \\ \vdots & \vdots & \vdots \\ a & N\left(\mu_a,\sigma^2\right) & y_{a1},y_{12},\cdots,y_{an_a} \\ \hline \end{array} \]

將其改寫為如下形式:

\[\left\{\begin{array}{l} y_{ij}=\mu_i+e_{ij} \ , \\ \\ e_{ij}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \end{array}\right. \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,n_i \ , \tag{1} \]

其中 \(\mu_i\) 是第 \(i\) 個總體的均值,\(e_{ij}\) 是相應的試驗誤差,比較因素 \(A\)\(a\) 個水平的差異歸結為比較這 \(a\) 個總體均值 \(\mu_1,\mu_2,\cdots,\mu_a\) 的差異。

首先定義如下的記號:

\[\mu=\frac1n\sum_{i=1}^an_i\mu_i \ , \quad n=\sum_{i=1}^an_i \ , \quad \alpha_i=\mu_i-\mu \ , \]

這里 \(\mu\) 為整個樣本的均值的總平均,\(\alpha_i\) 表示第 \(i\) 個水平下的均值與總平均的差異,反映了第 \(i\) 個水平對指標 \(y\) 的的效應。因此有

\[\sum_{i=1}^an_i\alpha_i=\sum_{i=1}^an_i(\mu_i-\mu)=n\mu-n\mu=0 \ . \]

\(\mu_i=\mu+\alpha_i\) 代入,模型 \((1)\) 可以改寫為

\[\left\{\begin{array}{l} y_{ij}=\mu+\alpha_i+e_{ij} \ , \\ \\ e_{ij}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \\\\ \displaystyle\sum_{i=1}^an_i\alpha_i=0 \ , \end{array}\right. \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,n_i \ , \tag{2} \]

模型 \((2)\) 即為標准的單因素方差分析模型,寫成矩陣形式即為

\[\left\{\begin{array}{l} Y=X\beta+e \ , \\ \\ e\sim N\left(0,\sigma^2I_n\right) \ , \\ \\ h'\beta=0 \ , \end{array}\right. \tag{3} \]

其中

\[\begin{aligned} &Y=\left(y_{11},\cdots,y_{1n_1},y_{21},\cdots,y_{2n_2},\cdots,y_{a1},\cdots,y_{an_a}\right)' \ , \\ \\ &\beta=\left(\mu,\alpha_1,\alpha_2,\cdots,\alpha_a\right)' \ , \\ \\ &e=\left(e_{11},\cdots,e_{1n_1},e_{21},\cdots,e_{2n_2},\cdots,e_{a1},\cdots,e_{an_a}\right)' \ , \\ \\ &h=\left(0,n_1,n_2,\cdots,n_a\right)' \ , \\ \\ \end{aligned} \]

而設計矩陣為

\[X=X_{n \times(a+1)}=\left[\begin{array}{ccccc} 1 & 1 \\ \vdots & \vdots \\ 1 & 1 \\ 1 & & 1 \\ \vdots & & \vdots \\ 1 & & 1 \\ \vdots & & & \ddots \\ 1 & & & & 1 \\ \vdots & & & & \vdots \\ 1 & & & & 1 \\ \end{array} \right] \quad \begin{array}{l} \left\}\begin{array}{l} \\ n_1\text{ lines} \\ \\ \end{array}\right. \\ \left\}\begin{array}{l} \\ n_2\text{ lines} \\ \\ \end{array}\right. \\ \vdots \\ \left\}\begin{array}{l} \\ n_a\text{ lines} \\ \\ \end{array}\right. \end{array} \ . \]

可見,單因素方差分析模型是一個帶約束條件 \(h'\beta=0\) 的線性模型,且如下兩種檢驗等價

\[H_0:\mu_1=\mu_2=\cdots=\mu_a \quad \iff \quad H_0:\alpha_1=\alpha_2=\cdots=\alpha_a=0 \ . \]

若拒絕 \(H_0\) ,則說明因素 \(A\) 的各水平的效應之間有顯著差異。

記所有樣本的總平均值為

\[\bar{y}=\frac1n\sum_{i=1}^a\sum_{j=1}^{n_i}y_{ij} \ . \]

定義統計量

\[{\rm SS}_T=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}\right)^2 \ , \]

\({\rm SS}_T\) 為總離差平方和,簡稱為總平方和,它反映了全部試驗數據之間的差異。

記第 \(i\) 水平下的樣本均值為

\[\bar{y}_{i\cdot}=\frac1{n_i}\sum_{j=1}^{n_i}y_{ij} \ . \]

因此

\[\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)=\sum_{j=1}^{n_i}y_{ij}-n_i\bar{y}_{i\cdot}=0 \ . \]

對總離差平方和 \({\rm SS}_T\) 進行分解:

\[\begin{aligned} {\rm SS}_T&=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}+\bar{y}_{i\cdot}-\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)^2+2\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)\left(\bar{y}_{i\cdot}-\bar{y}\right)+\sum_{i=1}^a\sum_{j=1}^{n_i}\left(\bar{y}_{i\cdot}-\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)^2+2\sum_{i=1}^a\left(\bar{y}_{i\cdot}-\bar{y}\right)\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)+\sum_{i=1}^an_i\left(\bar{y}_{i\cdot}-\bar{y}\right)^2 \\ \\ &\xlongequal{def}{\rm SS}_E+{\rm SS}_A \ . \end{aligned} \]

第一部分 \({\rm SS}_E\) 被稱為誤差平方和或組內平方和:

\[{\rm SS}_E=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)^2 \ . \]

它反映了隨機誤差的影響。因為對固定的第 \(i\) 水平,樣本 \(\{y_{i1},y_{i2},\cdots,y_{i,n_{i}}\}\) 來自同一個正態總體,所以它們之間的差異完全是由隨機誤差所致。

第二部分 \({\rm SS}_A\) 被稱為效應平方和或組間平方和:

\[{\rm SS}_A=\sum_{i=1}^a\sum_{j=1}^{n_i}\left(\bar{y}_{i\cdot}-\bar{y}\right)^2=\sum_{i=1}^an_i\left(\bar{y}_{i\cdot}-\bar{y}\right)^2 \ . \]

由於 \(\bar{y}_{i\cdot}\) 是第 \(i\) 水平下的樣本均值,是第 \(i\) 個正態總體的均值的估計,而 \(\bar{y}\)\(\mu=\frac1n\sum_{i=1}^an_i\mu_i\) 的估計,因此 \({\rm SS}_A\)\(a\) 個總體均值 \(\mu_1,\mu_2,\cdots,\mu_a\) 之間的差異大學的一個度量。

平方和分解公式 \({\rm SS}_T={\rm SS}_E+{\rm SS}_A\) ,將總離差平方和按其來源分解為兩部分,一部分是由隨機誤差引起的誤差平方和 \({\rm SS}_E\) ,另一部分是由因素 \(A\) 的各水平差異引起的效應平方和 \({\rm SS}_A\)

7.1.2 單因素方差分析檢驗統計量

由於對固定的 \(i\)\(\{y_{i1},y_{i2},\cdots,y_{i,n_{i}}\}\) 均為來自 \(N\left(\mu_i,\sigma^2\right)\) 的樣本,因此

\[\sum_{j=1}^n\left(y_{ij}-\bar{y}_{i\cdot}\right)^2/\sigma^2\sim\chi^2(n_i-1) \ . \]

所以有

\[{\rm E}\left({\rm SS}_E\right)=\sum_{i=1}^a{\rm E}\left[\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)^2\right]=(n-a)\sigma^2 \ . \]

這說明 \({\rm SS}_E/(n-a)\)\(\sigma^2\) 的一個無偏估計。

另一方面

\[\begin{aligned} {\rm E}\left({\rm SS}_A\right)&={\rm E}\left[\sum_{i=1}^an_i\left(\bar{y}_{i\cdot}-\bar{y}-\alpha_i+\alpha_i\right)^2\right] \\ \\ &=\sum_{i=1}^an_i\left[{\rm E}\left(\bar{y}_{i\cdot}-\bar{y}-\alpha_i\right)^2+\alpha_i^2\right] \\ \\ &=\sum_{i=1}^an_i\left(\frac{\sigma^2}{n_i}-\frac{\sigma^2}{n}\right)+\sum_{i=1}^an_i\alpha_i^2 \\ \\ &=(a-1)\sigma^2+\sum_{i=1}^an_i\alpha_i^2 \ . \end{aligned} \]

所以有

\[{\rm E}\bigg[{\rm SS}_A/(a-1)\bigg]=\sigma^2+\sum_{i=1}^an_i\alpha_i^2\big/(a-1) \ . \]

可以看出,\({\rm SS}_A/(a-1)\) 反映了各水平效應的影響。若 \(H_0\) 為真,則 \({\rm SS}_A/(a-1)\)\(\sigma^2\) 的無偏估計。因此,若 \(H_0\) 為真,則定義

\[F=\frac{{\rm SS}_A/(a-1)}{{\rm SS}_E/(n-a)} \ , \]

此時 \(F\) 統計量應接近於 \(1\) 。若 \(H_0\) 不為真,則 \(F\) 有變大的趨勢。

由樣本 \(\{y_{ij}\}\) 的獨立性可知

\[\frac{{\rm SS}_E}{\sigma^2}=\frac{\sum_{i=1}^a\sum_{j=1}^{n_i}\left(y_{ij}-\bar{y}_{i\cdot}\right)^2}{\sigma^2}\sim\chi^2(n-a) \ . \]

\(H_0\) 為真,則樣本 \(\{y_{ij}\}\) 是獨立同分布序列,且服從 \(N(\mu,\sigma^2)\) ,所以

\[\frac{{\rm SS}_T}{\sigma^2}\sim \chi^2(n-1) \ . \]

為了推導檢驗統計量在 \(H_0\) 為真時的分布,我們把 \({\rm SS}_T,\,{\rm SS}_E\)\({\rm SS}_A\) 都寫成正態隨機向量的二次型的形式,即

\[Y=\left(y_{11},y_{12},\cdots,y_{1n_1},\cdots,y_{a1},y_{a2},\cdots,y_{an_a}\right)' \ . \]

\(H_0\) 為真,則

\[Y\sim N\left(\mu\boldsymbol1_n,\sigma^2I_n\right) \ , \quad \frac{Y}{\sigma}\sim N(\frac\mu\sigma\boldsymbol1_n,I_n) \ . \]

於是

\[\begin{aligned} &{\rm SS}_T=Y'\left(I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n'\right)Y\equiv Y'CY \ , \\ \\ &{\rm SS}_E=Y'\left(I_n-{\rm diag}\left(\frac1{n_1}\boldsymbol 1_{n_1}\boldsymbol 1_{n_1}'\cdots,\frac1{n_a}\boldsymbol 1_{n_a}\boldsymbol 1_{n_a}'\right)\right)Y\equiv Y'C_1Y \ , \\ \\ &{\rm SS}_A=Y'\left({\rm diag}\left(\frac1{n_1}\boldsymbol 1_{n_1}\boldsymbol 1_{n_1}'\cdots,\frac1{n_a}\boldsymbol 1_{n_a}\boldsymbol 1_{n_a}'\right)-\frac1n\boldsymbol 1_n\boldsymbol 1_n'\right)Y\equiv Y'C_2Y \ . \end{aligned} \]

現已知:

  1. \(C=C_1+C_2\)
  2. \(C_2\) 為非負定矩陣(因為它是對稱冪等矩陣,特征根非 \(0\)\(1\) );
  3. \({\rm SS}_E/\sigma^2\sim\chi^2(n-a)\)
  4. \(H_0\) 為真,則 \({\rm SS}_T/\sigma^2\sim\chi^2(n-1)\)

則根據定理 2.4.4 ,若 \(H_0\) 為真,則有

\[\frac{{\rm SS}_A}{\sigma^2}\sim\chi^2(a-1,\lambda_2) \ . \]

經計算得非中心參數

\[\lambda_2=\left(\frac{\mu}{\sigma}\boldsymbol 1_n\right)'C_2\left(\frac{\mu}{\sigma}\boldsymbol 1_n\right)=0 \ , \]

所以

\[\frac{{\rm SS}_A}{\sigma^2}\sim\chi^2(a-1) \ . \]

且有 \({\rm SS}_A\)\({\rm SS}_E\) 相互獨立。所以 \(F\) 統計量可以作為 \(H_0\) 為真的檢驗統計量:

\[F=\frac{{\rm SS}_A/(a-1)}{{\rm SS}_E/(n-a)}\sim F(a-1,n-a) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{F>F_\alpha(a-1,n-a)\right\} \ . \]

單因素方差分析的計算過程可以表示為如下的方差分析表:

\[\begin{array}{|c|c|c|c|c|} \hline \text{方差來源} & \text{平方和} & \text{自由度} & \text{均方} & F\text{比} \\ \hline \text{因素}A & {\rm SS}_A & a-1 & {\rm MS}_A={\rm SS}_A/(a-1) & F={\rm MS}_A/{\rm MS}_E\\ \hline \text{誤差} & {\rm SS}_E & n-a & {\rm MS}_E={\rm SS}_E/(n-a) & \\ \hline \text{總和} & {\rm SS}_T & n-1 & \\ \hline \end{array} \]

7.1.3 區間估計與假設檢驗

如果 \(F\) 檢驗的結論是拒絕原假設,則表明從現有數據看,我們有理由認為因素 \(A\)\(a\) 個水平效應之間有顯著的差異,也就是說,\(\mu_1,\mu_2,\cdots,\mu_a\) 不完全相同。此時,我們需要對每一對 \(\mu_i\)\(\mu_j\) 之間的差異程度作出估計。這就等價於對效應之差 \(\mu_i-\mu_j\) 作區間估計,或者對 \(H_0:\mu_i=\mu_j\) 進行假設檢驗。

不難看出

\[\frac{\left(\bar{y}_{i\cdot}-\bar{y}_{j\cdot}\right)-\left(\mu_i-\mu_j\right)}{\sigma\sqrt{\cfrac{1}{n_i}+\cfrac{1}{n_j}}}\sim N(0,1) \ . \]

\(\hat\sigma^2={\rm SS}_E/(n-a)\) ,所以有

\[\frac{(n-a)\hat\sigma^2}{\sigma^2}=\frac{{\rm SS}_E}{\sigma^2}\sim\chi^2(n-a) \ , \]

\(\left(\bar{y}_{i\cdot}-\bar{y}_{j\cdot}\right)\)\({\rm SS}_E\) 相互獨立,所以有

\[\frac{\left(\bar{y}_{i\cdot}-\bar{y}_{j\cdot}\right)-\left(\mu_i-\mu_j\right)}{\hat\sigma\sqrt{\cfrac{1}{n_i}+\cfrac{1}{n_j}}}\sim t(n-a) \ . \]

因此在 \(H_0:\mu_i=\mu_j\) 成立時,檢驗統計量

\[t_{ij}=\frac{\bar{y}_{i\cdot}-\bar{y}_{j\cdot}}{\hat\sigma\sqrt{\cfrac{1}{n_i}+\cfrac{1}{n_j}}}\sim t(n-a) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{|t_{ij}|>t_{\alpha/2}(n-a)\right\} \ . \]

如果用區間估計的方法進行假設檢驗,則 \(\mu_i-\mu_j\) 的置信水平為 \(1-\alpha\) 的置信區間為

\[\left(\bar{y}_{i\cdot}-\bar{y}_{j\cdot}-\hat\sigma\sqrt{\cfrac{1}{n_i}+\cfrac{1}{n_j}}t_{\alpha/2}(n-a),\bar{y}_{i\cdot}-\bar{y}_{j\cdot}+\hat\sigma\sqrt{\cfrac{1}{n_i}+\cfrac{1}{n_j}}t_{\alpha/2}(n-a)\right) \ . \]

如果這個區間包含 \(0\) ,則表明我們可以以概率 \(1-\alpha\) 斷言 \(\mu_i\)\(\mu_j\) 沒有顯著差異;如果整個區間落在 \(0\) 的左邊,則我們可以以概率 \(1-\alpha\) 斷言 \(\mu_i\) 小於 \(\mu_j\)​ ;如果整個區間落在 \(0\) 的右邊,則我們可以以概率 \(1-\alpha\) 斷言 \(\mu_i\) 大於 \(\mu_j\)

7.2 兩因素方差分析

7.2.1 無交互效應的情形

考慮一般的兩因素試驗問題,將這兩個因素分別記為 \(A\)\(B\) ,假定因素 \(A\)\(a\) 個不同的水平,因素 \(B\)\(b\) 個不同的水平,分別記為 \(A_1,A_2,\cdots,A_a\)\(B_1,B_2,\cdots,B_b\)

這里我們只考慮在因素 \(A\)\(B\) 的各個水平的組合下做 \(1\) 次試驗的情形,即數據樣本如下表所示:

\[\begin{array}{|c|c|c|} \hline A_i\backslash B_j & B_1 & B_2 & \cdots & B_b\\ \hline A_1 & y_{11} & y_{12} & \cdots & y_{1b} \\ A_2 & y_{21} & y_{22} & \cdots & y_{2b} \\ \vdots & \vdots & \vdots & & \vdots \\ A_a &y_{a1} & y_{a2} & \cdots & y_{ab} \\ \hline \end{array} \]

兩因素方差分析模型可以寫為

\[\left\{\begin{array}{l} y_{ij}=\mu_{ij}+e_{ij} \ , \\ \\ e_{ij}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \end{array}\right. \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,b \ , \tag{4} \]

為進行統計分析,將 \(\mu_{ij}\) 做適當的分解,即

\[\begin{aligned} &\mu=\frac1{ab}\sum_{i=1}^a\sum_{j=1}^b\mu_{ij} \ , \quad \bar\mu_{i\cdot}=\frac1b\sum_{j=1}^b\mu_{ij} \ , \quad \bar\mu_{\cdot j}=\frac1a\sum_{i=1}^a\mu_{ij} \ . \\ \\ &\alpha_i=\bar{\mu}_{i\cdot}-\mu \ , \quad i=1,2,\cdots,a \ , \\ \\ &\beta_j=\bar\mu_{\cdot j}-\mu \ , \quad j=1,2,\cdots,b \ , \\ \\ &\gamma_{ij}=\mu_{ij}-\bar{\mu}_{i\cdot}-\bar\mu_{\cdot j}+\mu \ , \end{aligned} \]

其中 \(\mu\) 為總平均,\(\alpha_i\) 表示因素 \(A\) 的水平 \(A_i\) 的效應,\(\beta_j\) 表示因素 \(B\) 的水平 \(B_j\) 的效應,\(\gamma_{ij}\) 表示 \(A_i\)\(B_j\) 的交互效應,可以寫為

\[\gamma_{ij}=\mu_{ij}-\left(\bar{\mu}_{i\cdot}-\mu\right)-\left(\bar{\mu}_{\cdot j}-\mu\right)-\mu=\left(\bar{\mu}_{ij}-\mu\right)-\alpha_i-\beta_j \ , \]

通常把因素 \(A\)\(B\) 對試驗指標的交互效應設想為某一因素的效應,記為 \(A\times B\) 。不難驗證

\[\sum_{i=1}^a\alpha_i=0 \ , \quad \sum_{j=1}^b\beta_j=0 \ , \quad \sum_{i=1}^a\sum_{j=1}^b\gamma_{ij}=0 \ . \]

注意到 \(\mu_{ij}\) 可以改寫為 \(\mu_{ij}=\mu+\alpha_i+\beta_j+\gamma_{ij}\) ,因此模型 \((4)\) 可以寫成

\[\left\{\begin{array}{l} y_{ij}=\mu+\alpha_i+\beta_j+\gamma_{ij}+e_{ij} \ , \\ \\ e_{ij}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \\ \\ \displaystyle\sum_{i=1}^a\alpha_i=0 \ , \quad \sum_{j=1}^b\beta_j=0 \ , \\ \\ \displaystyle\sum_{i=1}^a\sum_{j=1}^b\gamma_{ij}=0 \ , \end{array}\right. \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,b \ , \tag{5} \]

事實上,交互效應的約束條件應該寫成

\[\sum_{j=1}^b\gamma_{ij}=0 \ , \quad \forall i=1,2,\cdots,a \ ; \quad \sum_{i=1}^a\gamma_{ij}=0 \ , \quad \forall j=1,2,\cdots,b \ . \]

這里共有 \(a+b-1\) 個約束。

假設 \(\gamma_{ij}=0,\,i=1,2,\cdots,a,\,j=1,2,\cdots,b\) ,即不存在交互效應,此時模型 \((5)\) 可寫為

\[\left\{\begin{array}{l} y_{ij}=\mu+\alpha_i+\beta_j+e_{ij} \ , \\ \\ e_{ij}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \\ \\ \displaystyle\sum_{i=1}^a\alpha_i=0 \ , \quad \sum_{j=1}^b\beta_j=0 \ , \end{array}\right. \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,b \ , \tag{6} \]

這就是無交互效應的兩因素方差分析模型。我們的目的是考察因素 \(A\)\(B\) 的各個水平對指標的影響有無顯著差異,這歸結為假設

\[\begin{aligned} &H_1:\alpha_1=\alpha_2=\cdots=\alpha_a=0 \ , \\ &H_2:\beta_1=\beta_2=\cdots=\beta_b=0 \ . \end{aligned} \]

接下來我們推導以上兩個假設的檢驗統計量。記

\[\bar{y}=\frac{1}{ab}\sum_{i=1}^a\sum_{j=1}^by_{ij} \ , \quad \bar{y}_{i\cdot}=\frac1b\sum_{j=1}^by_{ij} \ , \quad \bar{y}_{\cdot j}=\frac{1}{a}\sum_{i=1}^ay_{ij} \ , \]

定義全部試驗數據的總離差平方和 \({\rm SS}_T\)

\[{\rm SS}_T=\sum_{i=1}^a\sum_{j=1}^b\left(y_{ij}-\bar{y}\right)^2 \ . \]

對其進行分解得

\[\begin{aligned} {\rm SS}_T&=\sum_{i=1}^a\sum_{j=1}^b\left(y_{ij}-\bar{y}_{i\cdot}-\bar{y}_{\cdot j}+\bar{y}+\bar{y}_{i\cdot}-\bar{y}+\bar{y}_{\cdot j}-\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^b\left(y_{ij}-\bar{y}_{i\cdot}-\bar{y}_{\cdot j}+\bar{y}\right)^2+\sum_{i=1}^ab\left(\bar{y}_{i\cdot}-\bar{y}\right)^2+\sum_{j=1}^ba\left(\bar{y}_{\cdot j}-\bar{y}\right)^2 \\ \\ &\xlongequal{def}{\rm SS}_E+{\rm SS}_A+{\rm SS}_B \ . \end{aligned} \]

其中,\({\rm SS}_E\) 反映了試驗的隨機誤差的影響,稱為誤差平方和。將 \({\rm SS}_A\) 稱為因素 \(A\) 的平方和,將 \({\rm SS}_B\) 稱為因素 \(B\) 的平方和。可以證明:

\[\frac{{\rm SS}_E}{\sigma^2}\sim\chi^2((a-1)(b-1)) \ . \]

\(H_1\) 成立時,\({\rm SS}_A/\sigma^2\)\({\rm SS}_E\) 相互獨立,且有

\[\frac{{\rm SS}_A}{\sigma^2}\sim\chi^2(a-1) \ . \]

\(H_2\) 成立時,\({\rm SS}_B/\sigma^2\)\({\rm SS}_E\) 相互獨立,且有

\[\frac{{\rm SS}_B}{\sigma^2}\sim\chi^2(b-1) \ . \]

\(H_1\) 成立時,檢驗統計量為

\[F_A=\frac{{\rm SS}_A/(a-1)}{{\rm SS}_E/[(a-1)(b-1)]}\sim F(a-1,(a-1)(b-1)) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{F_A>F_{\alpha}(a-1,(a-1)(b-1))\right\} \ . \]

\(H_2\) 成立時,檢驗統計量為

\[F_B=\frac{{\rm SS}_B/(b-1)}{{\rm SS}_E/[(a-1)(b-1)]}\sim F(b-1,(a-1)(b-1)) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{F_B>F_{\alpha}(b-1,(a-1)(b-1))\right\} \ . \]

無交互效應的兩因素方差分析的計算過程也可以表示為如下的方差分析表:

\[\begin{array}{|c|c|c|c|c|} \hline \text{方差來源} & \text{平方和} & \text{自由度} & \text{均方} & F\text{比} \\ \hline \text{因素}A & {\rm SS}_A & a-1 & {\rm MS}_A={\rm SS}_A/(a-1) & F_A={\rm MS}_A/{\rm MS}_E\\ \hline \text{因素}B & {\rm SS}_B & b-1 & {\rm MS}_A={\rm SS}_B/(b-1) & F_B={\rm MS}_B/{\rm MS}_E\\ \hline \text{誤差} & {\rm SS}_E & (a-1)(b-1) & {\rm MS}_E={\rm SS}_E/[(a-1)(b-1)] & \\ \hline \text{總和} & {\rm SS}_T & ab-1 & \\ \hline \end{array} \]

如果經過 \(F_A\) 檢驗,\(H_1\) 被拒絕,此時我們認為因素 \(A\)\(a\) 個水平效應 \(\alpha_1,\alpha_2,\cdots,\alpha_a\) 不全相同。如果我們希望進一步比較 \(\alpha_i\) 的大小,這需要做 \(H_0:\alpha_i=\alpha_k\) 的假設檢驗,或者 \(\alpha_i-\alpha_k\) 的區間估計。

因為 \(y_{ij}\sim N\left(\mu+\alpha_i+\beta_j,\sigma^2\right)\) ,利用 \(\sum_{j=1}^b\beta_j=0\) 可知

\[\bar{y}_{i\cdot}\sim N(\mu+\alpha_i,\frac{\sigma^2}{b}) \ , \quad i=1,2,\cdots,a \ . \]

於是有

\[\bar{y}_{i\cdot}-\bar{y}_{k\cdot}\sim N(\alpha_i-\alpha_k,\frac{2\sigma^2}{b}) \ . \]

注意到 \(\sigma^2\) 的無偏估計為

\[\hat\sigma^2=\frac{{\rm SS}_E}{(a-1)(b-1)} \ , \]

\(\hat\sigma^2\)\(\bar{y}_{i\cdot}-\bar{y}_{k\cdot}\) 相互獨立,因此對固定的 \(i,k\) ,假設 \(H_0:\alpha_i=\alpha_k\) 的檢驗統計量為

\[t_{ik}=\frac{\sqrt{b}\left(\bar{y}_{i\cdot}-\bar{y}_{k\cdot}\right)}{\sqrt{2}\hat\sigma}\stackrel{H_0}\sim t((a-1)(b-1)) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{|t_{ik}|>t_{\alpha/2}((a-1)(b-1))\right\} \ . \]

考慮區間估計,\(\alpha_i-\alpha_k\) 的置信水平為 \(1-\alpha\) 的置信區間為

\[\left(\bar{y}_{i\cdot}-\bar{y}_{k\cdot}-\sqrt{\frac 2b}\hat\sigma t_{\alpha/2}((a-1)(b-1)),\bar{y}_{i\cdot}-\bar{y}_{k\cdot}+\sqrt{\frac 2b}\hat\sigma t_{\alpha/2}((a-1)(b-1))\right) \ . \]

同理可得 \(\beta_j-\beta_k\)​ 的置信水平為 \(1-\alpha\) 的置信區間為

\[\left(\bar{y}_{\cdot j}-\bar{y}_{\cdot k}-\sqrt{\frac 2a}\hat\sigma t_{\alpha/2}((a-1)(b-1)),\bar{y}_{\cdot j}-\bar{y}_{\cdot k}+\sqrt{\frac 2a}\hat\sigma t_{\alpha/2}((a-1)(b-1))\right) \ . \]

7.2.2 有交互效應的情形

若要考慮因素 \(A\)\(B\) 之間的交互作用 \(A \times B\) 時,則需要在各水平組合下做重復試驗才有效果。設每種組合下試驗次數均為 \(c(c>1)\) ,此時對應的有交互效應的雙因素方差分析模型即為

\[\left\{\begin{array}{l} y_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+e_{ijk} \ , \\ \\ e_{ijk}\stackrel{\rm i.i.d.}{\sim} N\left(0,\sigma^2\right) \ , \\ \\ \displaystyle\sum_{i=1}^a\alpha_i=0 \ , \quad \sum_{j=1}^b\beta_j=0 \ , \\ \\ \displaystyle\quad \sum_{i=1}^a\sum_{j=1}^b\gamma_{ij}=0 \ , \end{array}\right. \quad \begin{array}{l} i=1,2,\cdots,a \ , \\ \\ j=1,2,\cdots,b \ , \\ \\ k=1,2,\cdots,c \ , \end{array} \tag{7} \]

在這樣的模型下,\(\alpha_i\) 並不能反映水平 \(A_i\) 的優劣,因為在交互效應存在的情況下,因子水平 \(A_i\) 的優劣還與因子 \(B\) 的水平有關系。此時,檢驗 \(\alpha_1=\alpha_2=\cdots=\alpha_a=0\)\(\beta_1=\beta_2=\cdots=\beta_b=0\) 都是沒有實際意義的。因此,我們提出一個重要的檢驗問題是交互效應是否存在的檢驗,即檢驗

\[H_3:\gamma_{ij}=0 \ , \quad i=1,2,\cdots,a \ , \quad j=1,2,\cdots,b \ . \]

\(H_3\) 被接受,檢驗 \(\alpha_1=\alpha_2=\cdots=\alpha_a=0\)\(\beta_1=\beta_2=\cdots=\beta_b=0\) 才有意義。

引進記號:

\[\begin{aligned} &\bar{y}=\frac1{abc}\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^cy_{ijk} \ , \quad \bar{y}_{ij\cdot}=\frac1c\sum_{k=1}^cy_{ijk} \ , \\ \\ &\bar{y}_{i\cdot\cdot}=\frac1{bc}\sum_{j=1}^b\sum_{k=1}^cy_{ijk} \ , \quad \bar{y}_{\cdot j\cdot}=\frac1{ac}\sum_{i=1}^a\sum_{k=1}^cy_{ijk} \ . \end{aligned} \]

作平方和分解:

\[\begin{aligned} {\rm SS}_T&=\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^c\left(y_{ijk}-\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^c\left(y_{ijk}-\bar{y}_{ij\cdot}+\bar{y}_{i\cdot\cdot}-\bar{y}+\bar{y}_{\cdot j\cdot}-\bar{y}+\bar{y}_{ij\cdot}-\bar{y}_{i\cdot\cdot}-\bar{y}_{\cdot j\cdot}+\bar{y}\right)^2 \\ \\ &=\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^c\left(y_{ijk}-\bar{y}_{ij\cdot}\right)^2+bc\sum_{i=1}^a\left(\bar{y}_{i\cdot\cdot}-\bar{y}\right)^2+ac\sum_{j=1}^b\left(\bar{y}_{\cdot j\cdot}-\bar{y}\right)^2 \\ &\quad\ +c\sum_{i=1}^a\sum_{j=1}^b\left(\bar{y}_{ij\cdot}-\bar{y}_{i\cdot\cdot}-\bar{y}_{\cdot j\cdot}+\bar{y}\right)^2 \\ \\ &\xlongequal{def}{\rm SS}_E+{\rm SS}_A+{\rm SS}_B+{\rm SS}_{A\times B} \ . \end{aligned} \]

其中

\[\begin{aligned} &{\rm SS}_E=\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^c\left(y_{ijk}-\bar{y}_{ij\cdot}\right)^2 \ , \\ \\ &{\rm SS}_A=bc\sum_{i=1}^a\left(\bar{y}_{i\cdot\cdot}-\bar{y}\right)^2 \ , \\ \\ &{\rm SS}_B=ac\sum_{j=1}^b\left(\bar{y}_{\cdot j\cdot}-\bar{y}\right)^2 \ , \\ \\ &{\rm SS}_{A\times B}=c\sum_{i=1}^a\sum_{j=1}^b\left(\bar{y}_{ij\cdot}-\bar{y}_{i\cdot\cdot}-\bar{y}_{\cdot j\cdot}+\bar{y}\right)^2 \ . \end{aligned} \]

我們將 \({\rm SS}_E\) 稱為誤差平方和,\({\rm SS}_A\) 稱為因素 \(A\) 的平方和,\({\rm SS}_B\) 稱為因素 \(B\) 的平方和,\({\rm SS}_{A\times B}\) 稱為交互作用的平方和。

類似於以前的討論,可以證明當 \(H_3\) 成立時,

\[F_{A\times B}=\frac{{\rm SS}_{A\times B}/[(a-1)(b-1)]}{{\rm SS}_E/[ab(c-1)]}\stackrel{H_3}\sim F((a-1)(b-1),ab(c-1)) \ . \]

給定顯著性水平 \(\alpha\) ,假設檢驗的拒絕域為

\[W=\left\{F_{A\times B}>F_{\alpha}((a-1)(b-1),ab(c-1))\right\} \ . \]

有交互效應的兩因素方差分析的計算過程也可以表示為如下的方差分析表:

\[\begin{array}{|c|c|c|c|c|} \hline \text{方差來源} & \text{平方和} & \text{自由度} & \text{均方} & F\text{比} \\ \hline \text{因素}A & {\rm SS}_A & a-1 & {\rm MS}_A=\frac{{\rm SS}_A}{(a-1)} & F_A=\frac{{\rm MS}_A}{{\rm MS}_E} \\ \hline \text{因素}B & {\rm SS}_B & b-1 & {\rm MS}_A=\frac{{\rm SS}_B}{(b-1)} & F_B=\frac{{\rm MS}_B}{{\rm MS}_E} \\ \hline \text{交互效應}A\times B & {\rm SS}_{A\times B} & (a-1)(b-1) & {\rm MS}_{A\times B}=\frac{{\rm SS}_{A\times B}}{(a-1)(b-1)} & F_{A\times B}=\frac{{\rm MS}_{A\times B}}{{\rm MS}_E} \\ \hline \text{誤差} & {\rm SS}_E & ab(c-1) & {\rm MS}_E=\frac{{\rm SS}_E}{ab(c-1)} & \\ \hline \text{總和} & {\rm SS}_T & abc-1 & \\ \hline \end{array} \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM