[小白眼中的統計]差異性檢驗與一般線性模型(1)


     用SPSS的童鞋都知道,我們常用的方差分析(ANOVA)在一般線性模型(General Linear Model,簡稱GLM)的菜單下。那GLM是何許人也呢?讓我們打開萬能的wiki,鍵入General Linear Model。。。看到的居然是一張毫無違和感的Fitting Plot:

                                                       Linear regression.svg

以及傳說中的多元(線性)回歸公式: $Y_{i}=\beta_{0} + \beta_{i1}X_{i1} + \beta_{2}X_{i2} + ... +  \beta_{p}X_{ip} + \epsilon_{i} $  

  這不是回歸問題么?跟檢驗差異的方差分析有何關系呢?

 

  事實上,基於正態分布假設的參數檢驗(T檢驗,ANOVA,MANOVA,ANCOVA等等)均可以表征成回歸問題。

      不妨讓我們以最簡單的二類差異問題為例(組A與組B的差異)  ,我們通常采用T檢驗考察A與B之間的差異,並用Error_bar來表示A與B的差異(如下圖左)。

                                                   

  A與B是自變量X下的兩個水平,我們可以用0(A)與1(B)來編碼它們。那么,我們便可以得到因變量Y與自變量X的對應函數Y=F(X),假定兩者之間存在線性相關,即有函數模型$Y = \alpha X + \beta$ (如上圖右)。當A與B的差異越大,擬合線的斜率α也越大,即差異性檢驗可以通過回歸的形式來表達。

  那么兩者之間的顯著性是否等價呢?即A與B之間的T分數與擬合線的斜率α的T分數是否相同,答案是肯定的。

 

 

  我們不妨假設組A與組B之間滿足方差齊性,組A(Na)與組B(Nb)的樣本數不等。那么組A與組B之間的t值即為

$$t=\frac{\overline{Y_{b}}-\overline{Y_{a}}}{S_{Y_{a}Y_{b}}· \sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}} $$

其中,有$S_{Y_{a}Y_{b}}=\sqrt{\frac{(N_{a}-1)S_{Y_{a}}^2 + (N_{b}-1)S_{Y_{b}}^2}{N_{a}+N_{b}-2}}$,$S_{Y_{a}}$、 $S_{Y_{b}}$ 分別為組A與組B的標准差。

 

令$MEAN=\overline{Y_{b}}-\overline{Y_{a}}$,$SE=S_{Y_{a}Y_{b}}·\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}$ ,即有$t=\frac{MEAN}{SE}$

 

先處理最簡單的MEAN部分:

將線性模型$Y = \alpha X + \beta$代入MEAN,由於$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有: $MEAN =( \hat{\alpha} \times 1 +\hat{\beta} ) - ( \hat{\alpha} \times 0 +\hat{\beta} )={\hat{\alpha} -0} $

 

接着來看SE部分,首先是$S_{Y_{a}Y_{b}}$部分:

根據樣本標准差的Bessel校正公式,$S_{Y_{a}}=\frac{ \sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \overline{Y_{a}})^{2}}}{N_{a}-1}$,$S_{Y_{b}}=\frac{ \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \overline{Y_{b}})^{2}}}{N_{b}-1}$,將兩者帶入$S_{Y_{a}Y_{b}}$:

$$S_{Y_{a}Y_{b}}=\sqrt{\frac{\sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \overline{Y_{a}})^{2}} + \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \overline{Y_{b}})^{2}}}{N_{a}+N_{b}-2}}$$

組A,B的均值分別是其組內點的最小二乘估計量,即$\overline{Y_{a}}=\hat{Y_{a_{i}}},i\in A$;$\overline{Y_{b}}=\hat{Y_{b_{i}}},i\in B$:

$$S_{Y_{a}Y_{b}}=\sqrt{\frac{\sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \hat{Y_{a_{i}}})^{2}} + \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \hat{Y_{b_{i}}})^{2}}}{N_{a}+N_{b}-2}}=\sqrt{\frac{\sum_{i=1}^{N}{(Y_{i} - \hat{Y_{i}})^{2}}}{N-2}}$$ 

   

最后,來看$\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}$:

$$\frac{1}{N_{a}} + \frac{1}{N_{b}}=\frac{1}{\frac{N_{a}N_{b}}{N_{a}+N_{b}}}$$

$$=\frac{1}{\frac{N_{b}(N-N_{b})}{N}}$$

$$=\frac{1}{N_{b} - \frac{N_{b}^2}{N}}$$

$$=\frac{1}{N_{b} - 2·\frac{N_{b}^2}{N}+\frac{N_{b}^2}{N}}$$

由於$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有$N_{b}=\sum^{N}X_{i}=\sum^{N}X_{i}^2$,並有$\overline{X}=\frac{N_{b}}{N}$:

$$N_{b} - 2·\frac{N_{b}^2}{N}+\frac{N_{b}^2}{N}=\sum^{N}X_{i}^2-2·\sum^{N}(\frac{N_{b}}{N}·X_{i})+\sum^{N}(\frac{N_{b}}{N})^2$$

$$=\sum^{N}(X_{i}-\frac{N_{b}}{N})^2=\sum^{N}(X_{i}-\overline{X})^2$$

即$\large \sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}=\frac{1}{\sqrt{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}}$

 

綜上,$\Large t=\frac{MEAN}{SE}=\frac{MEAN}{S_{Y_{a}Y_{b}}·\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}}=\frac{\hat{\alpha} -0}{\sqrt{\frac{\frac{1}{N-2}·\sum_{i=1}^{N}{(Y_{i} - \hat{Y_{i}})^{2}}}{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}}}=\frac{\hat{\alpha} -0}{SE_{\hat{\alpha}}}$,最后的等式為線性模型的斜率的最小二乘估計量$\hat{\alpha}$是否大於0的T檢驗的表達式。

至此,我們成功的證明了:

方差齊性且不等組的組A與組B的之間的差異的T值 與

線性模型$Y = \alpha X + \beta$($X_{A}=0$,$X_{B}=1$)中$\alpha$是否顯著大於0的T值是等價的。

 

 對於更為一般的方差不齊的情況、配對樣本T檢驗以及多組間比較的方差分析(dummy coding技術),且聽下回分解^ ^

 

  

 

 

 

  

 

  

    

                               


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM