轉自:http://blog.sciencenet.cn/blog-116082-218338.html
方差分析(analysis of variance,ANOVA),即變量分析,是對多個樣本平均數差異顯著性檢驗的方法。
在一個多處理試驗中,可以得到一系列不同的觀測值。造成觀測值不同的原因是多方面的,有的是不同的處理引起的,即處理效應;有的是試驗過程中偶然性因素的干擾和測量誤差造成的,即誤差效應。方差分析的基本思想就是將測量數據的總變異按變異原因不同分解為處理效應和試驗誤差,並作出其數量估計。要正確認識觀測值的變異是由處理效應還是誤差效應引起的,我們可以計算出處理效應的均方和誤差效應的均方,在一定意義下進行比較,從而檢驗處理間的差異顯著性。
假設一個試驗有k個處理,每個處理有n個觀測數據,則總共有nk的觀測值。用
表示第i個處理的第j個觀測值,其中i=1,2,3,...,k;j=1,2,3,...,n。
表示第i個處理觀測值的總體平均數,
表示試驗誤差,則有:
,即第i個處理的第j個觀測值
是由該處理的總體平均數加上不可避免的試驗誤差組成的。而對於總體平均數(所有nk個觀測數據的平均數)
,則有
。若將各自處理水平上的總體平均數
視為在總體平均數
的基礎上施加了不同的處理效應
造成了,則有
。綜上,
,即任一個觀測數據都是由總體平均數加上處理效應以及試驗誤差組成的。同理,對於由樣本估計的線性模型為:
表示第i個處理的第j個觀測值,其中i=1,2,3,...,k;j=1,2,3,...,n。
表示第i個處理觀測值的總體平均數,
表示試驗誤差,則有:
,即第i個處理的第j個觀測值
是由該處理的總體平均數加上不可避免的試驗誤差組成的。而對於總體平均數(所有nk個觀測數據的平均數)
,則有
。若將各自處理水平上的總體平均數
視為在總體平均數
的基礎上施加了不同的處理效應
造成了,則有
。綜上,
,即任一個觀測數據都是由總體平均數加上處理效應以及試驗誤差組成的。同理,對於由樣本估計的線性模型為:
,
為樣本平均數,
為第i個處理的效應,
為試驗誤差。根據
的不同假定,上述模型可分為:
固定模型(fixed model):各個處理的效應值
是固定的,即除去隨機誤差外每個處理所產生的效應是固定的,
是個常量且
之和為0。此時的試驗處理水平常是根據目的事先主觀選定的,如幾種不同溫度下小麥籽粒的發芽情況。
是固定的,即除去隨機誤差外每個處理所產生的效應是固定的,
是個常量且
之和為0。此時的試驗處理水平常是根據目的事先主觀選定的,如幾種不同溫度下小麥籽粒的發芽情況。
隨機模型(random model):各個處理的效應值
不是固定的,而是由隨機因素所引起的效應。
是從期望均值為0,方差為
的正態總體中得到的隨機變量。如調查不同生境下某物種的生長狀況時,不同生境的氣候、土壤條件及水分條件等屬於無法認為控制的因素,就要用隨機模型來處理。
不是固定的,而是由隨機因素所引起的效應。
是從期望均值為0,方差為
的正態總體中得到的隨機變量。如調查不同生境下某物種的生長狀況時,不同生境的氣候、土壤條件及水分條件等屬於無法認為控制的因素,就要用隨機模型來處理。
混合模型(mixed model):多因素試驗中,既包括固定效應的因素,又包括隨機效應的因素,則該試驗應對應於混合模型。
不同模型的側重點不完全相同,方差期望值也不一樣。固定模型主要側重於效應值
的估計和比較,隨機模型則側重效應方差的估計和檢驗。因此在進行分析及試驗之前就要明確關於模型的基本假設。對於單因素方差分析,固定模型和隨機模型沒有多大差別。
的估計和比較,隨機模型則側重效應方差的估計和檢驗。因此在進行分析及試驗之前就要明確關於模型的基本假設。對於單因素方差分析,固定模型和隨機模型沒有多大差別。
方差分析的步驟:
(進行方差分析時需要滿足獨立樣本、方差齊性、正態分布等條件,如果方差不具備齊性(F檢驗),可首先進行數據轉換,如進行對數轉換等)
根據方差分析的基本思想,首先要將測量數據
的總變異進行拆分,分為處理效應
和試驗誤差
,然后將處理間方差與處理內方差(誤差方差)進行F檢驗,判斷處理效應與試驗誤差差異是否顯著。
的總變異進行拆分,分為處理效應
和試驗誤差
,然后將處理間方差與處理內方差(誤差方差)進行F檢驗,判斷處理效應與試驗誤差差異是否顯著。
1.處理間方差
和處理內方差
的計算:
和處理內方差
的計算:
(1)平方和的拆分:

為第i個處理n個觀測數據的平均數,
為全部nk個觀測數據的平均數,則有:
(試驗誤差)和
(處理效應),即觀測數據
的總變異是試驗誤差
與處理效應
之和。
將等式兩邊平方:

每一個處理的n個觀測數據累加:
由於
,在同一處理水平上
為定值,則上式有:
,在同一處理水平上
為定值,則上式有:
把k個處理再累加則有:
其中:
為總平方和,用
表示;
為處理間平方和,用
表示;
為組內平方和,用
表示。所以:
。
(2)自由度的分解:
,即總自由度=處理間自由度+處理內自由度
則:
最后,根據各變異部分的平方和與自由度,得處理間方差
和處理內方差
:
和處理內方差
:
,
。
2.統計假設的顯著性檢驗—F檢驗:
,
,
。
比較計算所得F值與某顯著水平(如0.05)下F值,可得處理間差異是否顯著。若處理間差異顯著,則需進一步比較哪些處理間差異是顯著的。
3.多重比較(multiple comparisions)
常用的方法有:最小顯著差數法(the least significant difference,LSD)和最小顯著極差法(the least significant range,LSR)。
LSD法:實質是兩個平均數比較的t檢驗法
由於
,得
,
,得
,
當
時,
時,
,
為處理內誤差方差,n為同一處理內重復次數。
將在一定顯著水平上達到差異顯著的最小差數LSD定義為:
,
,
當
,即在給定的顯著水平下差異顯著,反之,差異不顯著。
,即在給定的顯著水平下差異顯著,反之,差異不顯著。
LSR法:采用不同平均數間用不同的顯著差數標准進行比較,依據極差范圍內所包含的處理數據(也稱為秩次距)k的不同而采用不同的檢驗尺度。常用的方法有新復極差檢驗(Duncan法)和q檢驗(SNK)法。
新復極差檢驗(new multiple range test):也稱為Duncan法、SSR法。
當
時,定義某顯著水平
下,
,
,
,
為處理內誤差方差,n為同一處理內重復次數。將需比較的各平均數按從大到小的順序排列,則相鄰兩個平均數位次上的差別M=2,隔一個則M=3,以此類推。根據M值和自由度,即可查新復極差檢驗SSR值表得
,然后得出
。
時,定義某顯著水平
下,
,
,
,
為處理內誤差方差,n為同一處理內重復次數。將需比較的各平均數按從大到小的順序排列,則相鄰兩個平均數位次上的差別M=2,隔一個則M=3,以此類推。根據M值和自由度,即可查新復極差檢驗SSR值表得
,然后得出
。
將需比較的兩平均數之差與對應的
值比較,則可判斷差異是否顯著。
值比較,則可判斷差異是否顯著。
,則差異顯著,反之不顯著。
q檢驗法:SNK法,本質與LSR法相同,將LSR法中的
替換為
,查
值表。
替換為
,查
值表。
當排序秩次超過3時,三種檢驗的尺度關系為LSD法
多重比較結果標記的方法之一:標記字母法。
首先將全部平均數從大到小依次排列,最大的字母上標a,將該平均數與以下各平均數相比較,凡差異不顯著的標a,直至與之差異顯著的平均數標b,然后以此平均數為標准,與比它大的平均數比較,差異不顯著的在a的后邊標b,然后再以標b的最大的平均數為標准,與以下未標字母的平均數比較,凡差異不顯著的仍然標b,直至差異顯著的標c,以此類推,直至所有平均數都標記上字母為止。
注:當處理內觀測次數(重復數)不相同時,計算公式有所改變。
