轉載:https://www.cnblogs.com/think-and-do/p/6509239.html
T分布:溫良寬厚
本文由“醫學統計分析精粹”小編“Hiu”原創完成,文章采用知識共享Attribution-NonCommercial-NoDerivatives 4.0國際許可協議(http://creativecommons.org/licenses/by-nc-nd/4.0/)進行許可,轉載署名需附帶本號二維碼,不可用於商業用途,不允許任何修改,任何謬誤建議,請直接反饋給原作者,謝謝合作!
命名與源起
“t”,是偉大的Fisher為之取的名字。Fisher最早將這一分布命名為“Student's distribution”,並以“t”為之標記。
Student,則是William Sealy Gosset(戈塞特)的筆名。他當年在愛爾蘭都柏林的一家酒廠工作,設計了一種后來被稱為t檢驗的方法來評價酒的質量。因為行業機密,酒廠不允許他的工作內容外泄,所以當他后來將其發表到至今仍十分著名的一本雜志《Biometrika》時,就署了student的筆名。所以現在很多人知道student,知道t,卻不知道Gosset。(相對而言,我們常說的正態分布,在國外更多的被稱為高斯分布……高斯~泉下有知的話,說不定會打出V字手勢~歐耶!)
看懂概率密度圖
這一點對於初學者尤為重要,相信還是有不少人對正態分布或者t分布的曲線沒有確切的理解。
首先,我們看一下頻率分布直方圖,histogram:
上圖,最關鍵的就是橫軸了,柱高,即,對於橫軸上每一個點,發生的頻次。圖中橫軸為4處,次數最多,大約12次;依次類推,橫坐標為10處,發生1次……
我們做單變量的探索性數據分析,最喜歡做柱狀圖了,或者再額外繪制一條Density曲線於其上(見下圖)。很容易就可以看出數據的分布(集中趨勢、離散趨勢),圖中,數據大多集中在4左右(均數、眾數),有一點點右偏態,但基本還是正態分布。
下圖,手繪曲線,即密度曲線,英文全稱Probability Density Function/Curve。實際上是對上面柱狀圖的一個平滑,但它的縱坐標變為了概率,區別於柱狀圖的頻次。但理解起來意義差不多。
以下,我們就用Density曲線來講解T分布的特征。
T分布的可視化
我們平常說的t分布,都是指小樣本的分布。但其實正態分布,可以算作t分布的特例。也就是說,t分布,在大小樣本中都是通用的。
之前有讀者問過:“是不是樣本量大於30或者大於50,就不能用t分布了呀”?
完全不是這樣的!t分布,大小通吃!具體且看下文分解。
相對於正態分布,t分布額外多了一個參數,自由度。自由度 = n - 1。我們先看幾個例子,主觀感受一下t分布。
= 1 :紅色為t分布;藍色為正態分布。
= 2 :紅色
= 2,高於
= 1 的綠色,低於正態分布。
= 3 :紅色
= 3,高於
= 1,2 的綠色,低於正態分布。
= 10 :紅色
= 10,高於
= 1~9的綠色,低於正態分布。
可見,隨着樣本量n / 自由度的增加,t分布越來越接近正態分布。正態分布,可以看做只是t分布的一個特例而已。
以上部分大家大概都學過的,相信大多數讀者都會了解。但這里,讓我們回到我們的標題(不是標題黨):溫良寬厚。
大家仔細比較一下下圖。t分布(紅色)雖然也是鍾型曲線,但是中間較低、兩側尾巴卻很高。
這就是t分布的優勢!這個特征相當重要,百年來,t分布就指着這個特征活着的!
比較一下上圖兩條曲線,我用這樣一個詞,“寬厚”,來形容t分布曲線的特征。是不是比正態分布曲線更寬啊?是不是比正態分布曲線更厚呢?
大家都說重要的事要重復三遍,我們再重復一下,樣本量越小(自由度越小),t分布的尾部越高。
尾部的高度,有十分重要的統計學意義。
我們來比較一下下圖中的兩條曲線。這兩條曲線同樣都是對圖中底部6個黑色點(數值)進行分布擬合。
我們首先看一下那條矮的、正態分布的曲線。我們前面說過,正態分布的曲線不具備“寬厚”的特征。它的尾部很低,尾部與橫軸之間高度很“狹窄”。也就是說,正態分布不能夠容忍它長長的尾部出現大概率的事件(圖中橫軸值為15處一圓點出現概率為六分之一),所以正態分布就很無奈地,將這一點納入它的胸膛而非留在尾部。於是乎,惡果就出現了:圖中正態分布的均數,遠遠偏離了大多數點所在的位置,標准差也極大。總之,與我們所期待的很不一致。
再看一下那條高高的t分布曲線。我們前面說過了,t分布“溫良寬厚”,它的尾巴很高(本圖中不明顯,參見上面自由度為1,2,3時所對應的圖片),高高的長尾讓它有“容人的雅量”。所以,這條t分布的曲線,很好的捕捉到了數據點的集中趨勢(橫坐標:0附近)和離散趨勢(標准差:只是那條正態分布曲線標准差的四分之一)。
這也是T分布盛行的原因,即T分布被廣泛應用於小樣本假設檢驗的原因。雖然是很小的樣本,但是,卻強大到可以輕松的排除異常值的干擾,准確把握住數據的特征(集中趨勢和離散趨勢)!
准確捕捉變量的集中趨勢和離散趨勢在統計中有極為重要的意義,幾句話難以說清,簡單舉幾個栗子:
-
研究樣本量的估計量更小。熟悉樣本量計算的朋友也知道,標准差是樣本量計算的一個重要參數。上例中,我們t分布的標准差只是正態分布的四分之一,那么我們計算所需的樣本量也會極大的減少(只需原來的16分之一),極大地降低研究經費和工作量!(關注“醫學統計分析精粹”,回復關鍵詞“樣本量”,可以看到很handy的樣本量計算工具哦!)
-
我們縮小了標准差,熟悉假設檢驗(將在后續“看圖說話”系列文章中出現)的朋友也不難看出,如此,我們更容易得到一個有意義的P值!
-
點估計更准確。如果我們需要根據一個小樣本數據來估計學生的平均身高。那么使用正態分布來擬合,很容易就受到離群異常值的影響而得到錯誤的估計。
-
回歸中應用t分布,可以得到更穩健的估計量(β值或OR值),這也是我們實現“穩健回歸”的一個重要手段。
通過下面一幅圖,我們鞏固一下t分布的“寬厚”:
與正態分布曲線(矮胖)比較,t分布以其高高的尾部(本圖中不明顯,參見上面自由度為1,2,3時所對應的圖片),容忍了在橫軸為9處的異常值,得到了更穩健的集中趨勢估計值(均值1.11)和更緊湊的離散趨勢估計值(標准差差0.15,又是正態分布的四分之一)。要知道,我們如果單單想通過增加樣本量來將標准誤(假設檢驗中使用的參數,標准差除以自由度的平方根)縮減到四分之一,需要16倍的樣本量!可見,t分布當真是威力無窮!
PS:上述兩幅圖中的t分布曲線並不是頻率學派應用t分布的常規套路(更像是貝葉斯學派的用法)。細心者可以發現,我們使用的t分布的自由度明顯低於n - 1的自由度計算方法。這里的自由度是根據最大似然法估計出來的,用以更恰當地擬合數據的分布。雖然這與我們平時的用法不同,但小編覺得,這一點點不同不僅無傷大雅,反而更有利於大家深入理解t分布的特征——溫良寬厚。
卡方分布的應用

本文來自http://www.cnblogs.com/baiboy/p/tjx11.html
提到統計學,很多人認為是經濟學或者數學的專利,與計算機並沒有交集。誠然在傳統學科中,其在以上學科發揮作用很大。然而隨着科學技術的發展和機器智能的普及,統計學在機器智能中的作用越來越重要。本系列統計學學習基於李航的《統計學習方法》一書和一些基本的概率知識。
統計和數學模型對機器智能發揮重大的作用。諸如:語音識別、詞性分析、機器翻譯等世界級的難題也是從統計中找到開啟成功之門鑰匙的。尤其是在自然語言處理方面更顯得重要。
-
目錄
-
1 題引和基本知識介紹
-
2 卡方檢驗擬合優度(問題一)
-
3 卡方檢驗兩個變量的獨立性(問題二)
-
4 本章小結
-
5 內容擴展
1 題引和基本知識介紹
1 什么是卡方分布?
若n個相互獨立的隨機變量ξ₁、ξ₂、……、ξn ,均服從標准正態分布(也稱獨立同分布於標准正態分布),則這n個服從標准正態分布的隨機變量的平方和
Q=∑i=1nξ2i
構成一新的隨機變量,其卡方分布規律稱為x^2,分布(chi-square distribution),其中參數n稱為自由度,正如正態分布中均值或方差不同就是另一個x2正態分布一樣,自由度不同就是另一個分布。記為 Q~x^2(k). 卡方分布是由正態分布構造而成的一個新的分布,當自由度n很大時,X^2分布近似為正態分布。 對於任意正整數k, 自由度為 k的卡方分布是一個隨機變量X的機率分布。
2 為什么要引用卡方分布?
以特定概率分布為某種情況建模時,事物長期結果較為穩定,能夠清晰進行把握。但是期望與事實存在差異怎么辦?偏差是正常的小幅度波動?還是建模錯誤?此時,利用卡方分布分析結果,排除可疑結果。【事實與期望不符合情況下使用卡方分布進行檢驗】
3 生活中又怎樣的事例(抽獎機之謎)會出現這種現象呢?
抽獎機,肯定都不陌生,現在一些商場超市門口都有放置。正常情況下出獎概率是一定的,基本商家收益。倘若突然某段時間內總是出獎,甚是反常,那么到底是某階段是小概率事件還是有人進行操作了?抽獎機怎么了?針對這種現象或者類似這種現象問題則可以借助卡方進行檢驗,暫且不着急如何檢驗,還是補充一下基礎知識,再逐步深入解決問題。【常規事件中出現非常規現象,如何檢查問題所在的情況下使用卡方分布】
4 問題描述:抽獎機之謎?
問題一:卡方檢驗擬合優度案例
下面是某台抽獎機的期望分布,其中X代表每局游戲的凈收益(每局獨立事件):
實際中人們收益的頻數為:
在5%的顯著性水平下,看看能否有足夠證據證明判定抽獎機被人動了手腳。
1、算出每個x值的實際頻率與根據概率分布得出的期望頻率進行比較?
2、利用抽獎機的觀察頻率和期望頻率表計算檢驗統計量?
3、要檢驗的原假設是什么?備擇假設是什么?
4、自由度為4且5%水平的拒絕域是多少?
5、檢驗統計量是多少?
6、檢驗統計量是在拒絕域以內還是拒絕域以外?
7、你將接受還是拒絕原假設?
問題二:卡方檢驗獨立性案例
下表顯示各位庄家的觀察頻數,
以1%的顯著性水平進行假設檢驗,看看賭局結果是否獨立於坐庄庄家。
1、你是任務是算出所有期望頻數。
2、根據上面所求期望頻數,計算檢驗統計量X^2.
3、確定要進行檢驗的假設以及備擇假設。
4、求出期望頻率和自由度?
5、確定用於做決策的拒絕域。
6、計算檢驗統計量X^2
7、看看檢驗統計量是否位於拒絕域內。
8、作出決策。
2 卡方檢驗擬合優度(問題一)
問題簡述:抽獎機平常收益者總是商家,突然一段時間總是出獎。本來小概率事件頻發,我們利用卡方的檢驗擬合優度看看能否有足夠證據證明判定抽獎機被人動了手腳
1 知識儲備:期望頻數計算
期望頻數=(觀察頻數之和(1000)) X (每種結果的概率) 如:X=(-2)的期望頻數:977=(0.977)X(1000)
利用卡方假設檢驗觀察頻數和期望頻數之間的差別。
-
1、算出每個x值的實際頻率與根據概率分布得出的期望頻率進行比較?
解答:
2 知識儲備:卡方檢驗評估差異
卡方分布:通過一個檢驗統計量來比較期望結果和實際結果之間的差別,然后得出觀察頻數極值的發生概率。
計算統計量步驟: (期望頻數總和與觀察頻數總和相等)
1、表里填寫相應的觀察頻數和期望頻數
2、利用卡方公式計算檢驗統計量:(O代表觀察期望,E代表期望頻數)
x2=∑(O−E)2E
注釋: 其中x^2表示檢驗統計量,O表示觀察頻數,E代表期望頻數。
即:對於概率分布的每一個概率,取期望頻數和實際頻數的差,求差的平方數,再除以期望頻數,然后將所有結果相加。
檢驗統計量意義:O與E之間差值越小,檢驗統計量越小。以E為除數,令差值與期望頻數成比例。
卡方檢驗的標准:如果統計量值(X^2)很小,說明觀察頻數和期望頻數之間的差別不顯著,統計量越大,差別越顯著。
-
2、利用抽獎機的觀察頻率和期望頻率表計算檢驗統計量?
解答:
3 知識儲備:卡方假設檢驗
卡方分布的用途:檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定數據與指定分布的吻合程度。如:用它檢驗抽獎機收益的觀察頻數與我們所期望的吻合程度。
2、檢驗兩個變量的獨立性:通過這個方法檢查變量之間是否存在某種關系。
自由度V:用於計算檢驗統計量的獨立變量的數目。
1、自由度希臘字母V,讀作“紐”,v影響概率分布
2、當v等於1或者2時:卡方分布先高后低的平滑曲線,檢驗統計量等於較小值的概率遠遠大於較大值的概率,即觀察頻數有可能接近期望頻數。圖形:
![]()
3、當v大於2時:卡方分布先低后高再低,其外形沿着正向扭曲,但當v很大時,圖形接近正態分布。圖形:
![]()
4、特定參數v(繆)的卡方分布以及檢驗統計量可以記作:
5、v的計算: (如例子:v=5-1)
v=(組數) - (限制數)
顯著性: 卡方分布指出觀察頻數與期望頻數之間差異顯著性,和其他假設一樣,這取決於顯著性水平。1、顯性水平α進行檢驗,則寫作:(常用的顯著性水平1%和5%)
2、檢測標准:卡方分布檢驗是單尾檢驗且是右尾,右尾被作為拒絕域。於是通過查看檢驗統計量是否位於右尾的拒絕域以內,來判定期望分布得出結果的可能性。
![]()
3、卡方概率表的使用:卡方臨界值表是給定可以查詢的
例如: 5%的顯著性水平,8的自由度進行檢驗。查出15.51,因此只要檢驗統計量大於15.51,檢驗統計量就位於拒絕域內。
卡方分布假設檢驗: (總是使用右尾)
步驟:
1、確定要進行檢驗的假設(H0)及其備擇假設H1.
2、求出期望E和自由度V.
3、確定用於做決策的拒絕域(右尾).
4、計算檢驗統計量.
5、查看檢驗統計量是否在拒絕域內.
6、做出決策.
卡方分布檢驗其實就是假設檢驗的特殊形式。
-
3、要檢驗的原假設是什么?備擇假設是什么?
解答:
4 知識儲備:拒絕域求解
![]()
例如: 5%的顯著性水平,8的自由度進行檢驗。查出15.51,因此只要檢驗統計量大於15.51,檢驗統計量就位於拒絕域內。
-
4、自由度為4,5%水平的拒絕域是多少?
解答:
5 知識儲備:計算檢驗統計量
前面已經求過。
-
5、檢驗統計量是多少?
解答:
6 知識儲備:檢驗統計量拒絕域內外判定
1、求出檢驗統計量a
2、通過自由度和顯著性水平查到拒絕域臨界值b
3、a>b則位於拒絕域內,反之,位於拒絕域外。
-
6、檢驗統計量是在拒絕域以內還是拒絕域以外?
解答:
7 知識儲備:決策原則
如果位於拒絕域內我們拒絕原假設H0,接受H1。
如果不在拒絕域內我們接受原假設H0,拒絕H1
-
7、你將接受還是拒絕原假設?
解答:
注:只有能得到一組觀察頻數且算出期望頻數,卡方可以檢驗任何概率分布的擬合優度。
揭曉謎底:抽獎機被人動了手腳!!!!!
3 卡方檢驗兩個變量的獨立性(問題二)
【問題簡述】:抽獎機被人動過手腳,經過技術人員處理得以解決,但是現在新問題出現了,因為老板發現負責二十一點賭桌的庄家佩服的錢高於合理值。懷疑庄家是內鬼。究竟賭局結果是否取決於坐庄的庄家,即庄家是否暗箱操作,賭局結果與庄家是否有關?此問題需要卡方分布檢查獨立性破案。
【問題二】下表顯示各位庄家的觀察頻數,
以1%的顯著性水平進行假設檢驗,看看賭局結果是否獨立於坐庄庄家。
1 知識儲備:利用概率求期望頻數
1、獨立性檢驗:用於判斷兩種因素是否相互獨立,或者兩者是否有聯系。
2、期望概率求解步驟:
1、算出賭局結果和庄家頻數以及各項總和,如下表稱為列聯表
2、算出庄家A的贏局期望。
a、求出贏局概率:P(贏)=贏局合計/總和
b、庄家A坐庄概率:P(A)=合計A/總和
c、假設庄家A和賭局結果獨立,其坐庄出現贏局概率:P(A坐庄贏局)=P(贏) X P(A)
d、贏局的期望頻數=總和*P(A坐庄贏局)
即:
3、推廣:期望頻數= 行合計 X 列合計 / 總和
4、求出檢驗統計量:(與前面一樣)
x2=∑(O−E)2E
-
1、你是任務是算出所有期望頻數。
解答: -
2、根據上面所求期望頻數,計算檢驗統計量X^2.
解答:
-
3、確定要進行檢驗的假設以及備擇假設。
解答:
-
4、求出期望頻率和自由度?
解答:
-
5、確定用於做決策的拒絕域。
解答:
-
6、計算檢驗統計量X^2
解答:
-
7、看看檢驗統計量是否位於拒絕域內。
解答:
-
8、作出決策。
解答:
2 自由度計算方法歸納:
列聯表自由度計算,表如下k列,h行
v=(h-1) X (k-1) 注釋:每行計算到最后一個,用總數-其他之后,故一個數限制,同列一列限制。故如上式。
注:
1、在擬合優度檢驗中,v=組數 - 限制數
2、在兩個變量獨立性檢驗中,如列聯表為h行k列則:v=(h-1) X (k-1)
4 本章小結
1 為什么要引用卡方分布?
以特定概率分布為某種情況建模時,事物長期結果較為穩定,能夠清晰進行把握。但是期望與事實存在差異怎么辦?偏差是正常小幅度波動或是在建模錯誤如何判別?此時,利用卡方分布分析結果,排除可疑結果。【事實與期望不符合情況下使用卡方分布進行檢驗】
2 卡方檢驗擬合優度案例
期望計算:
期望頻數=(觀察頻數之和(1000)) X (每種結果的概率) 如:-2:977=(0.977)X(1000)
卡方分布
通過一個檢驗統計量來比較期望結果和實際結果之間的差別,然后得出觀察頻數極值的發生概率。
計算統計量步驟:(期望頻數總和與觀察頻數總和相等)
1、表里填寫相應的觀察頻數和期望頻數
2、利用卡方公式計算檢驗統計量:(O代表觀察期望,E代表期望頻數)
x2=∑(O−E)2E
即:對於概率分布的每一個概率,取期望頻數和實際頻數的差,求差的平方數,再除以期望頻數,然后將所有結果相加。
檢驗統計量意義
O與E之間差值越小,檢驗統計量越小。以E為除數,令差值與期望頻數成比例。 卡方檢驗的標准:如果統計量值(X^2)很小,說明觀察頻數和期望頻數之間的差別不顯著,統計量越大,差別越顯著。
卡方分布的用途
檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定數據與指定分布的吻合程度。如:用它檢驗抽獎機收益的觀察頻數與我們所期望的吻合程度。 2、檢驗兩個變量的獨立性:通過這個方法檢查變量之間是否存在某種關系。
自由度V
用於計算檢驗統計量的獨立變量的數目。
1、自由度希臘字母V,讀作“紐”,v影響概率分布
2、當v等於1或者2時:卡方分布先高后低的平滑曲線,檢驗統計量等於較小值的概率遠遠大於較大值的概率,即觀察頻數有可能接近期望頻數。 3、當v大於2時:卡方分布先低后高再低,其外形沿着正向扭曲,但當v很大時,圖形接近正態分布。
4、特定參數v(繆)的卡方分布以及檢驗統計量
5、v的計算: (如例子:v=5-1)
v=(組數) - (限制數)
顯著性
卡方分布指出觀察頻數與期望頻數之間差異顯著性,和其他假設一樣,這取決於顯著性水平。
1、顯性水平α進行檢驗,則寫作:(常用的顯著性水平1%和5%)
2、檢測標准:卡方分布檢驗是單尾檢驗且是右尾,右尾被作為拒絕域。於是通過查看檢驗統計量是否位於右尾的拒絕域以內,來判定期望分布得出結果的可能性。
3、卡方概率表的使用:卡方臨界值表是給定可以查詢的
卡方分布假設檢驗步驟: 總是使用右尾
1、確定要進行檢驗的假設(H0)及其備擇假設H1.
2、求出期望E和自由度V.
3、確定用於做決策的拒絕域(右尾).
4、計算檢驗統計量.
5、查看檢驗統計量是否在拒絕域內.
6、做出決策.
卡方分布檢驗其實就是假設檢驗的特殊形式。
決策原則
如果位於拒絕域內我們拒絕原假設H0,接受H1。 如果不在拒絕域內我們接受原假設H0,拒絕H1
卡方檢驗兩個變量的獨立性(問題二)
獨立性檢驗:
用於判斷兩種因素是否相互獨立,或者兩者是否有聯系。
期望概率求解步驟:
1、算出賭局結果和庄家頻數以及各項總和,如下表稱為列聯表
2、算出庄家A的贏局期望。
a、求出贏局概率:P(贏)=贏局合計/總和
b、庄家A坐庄概率:P(A)=合計A/總和
c、假設庄家A和賭局結果獨立,其坐庄出現贏局概率:P(A坐庄贏局)=P(贏) X P(A)
c、贏局的期望頻數=總和*P(A坐庄贏局)
即:
推廣:
期望頻數= (行合計 X 列合計) / 總和
求出檢驗統計量:(與前面一樣)
x2=∑(O−E)2E
自由度計算方法歸納:
列聯表自由度計算,表如下k列,h行
v=(h-1) X (k-1)
注釋:每行計算到最后一個,用總數-其他之后,故一個數限制,同列一列限制。故如上式。
注:
1、在擬合優度檢驗中,v=組數 - 限制數
2、在兩個變量獨立性檢驗中,如列聯表為h行k列則:v=(h-1) X (k-1)
F 分布
F分布
研究A、B、C三種不同學校學生的閱讀理解成績找到一種解決的辦法,有人可能會以為,只要多次使用Z檢驗或t檢驗,比較成對比較學校(或條件)即可。但是我們不會這樣來處理。因為Z檢驗或t檢驗有其局限性:
(1)比較的組合次數增多,上例需要3次,如果研究10個學校,需要45個
(2)降低可靠程度,如果我們做兩次檢驗,每次都為0.05的顯著性水平,那么不犯Ⅰ型錯誤的概率就變為0.95×0.95=0.90。此時犯Ⅰ型錯誤的概率則為1-0.90=0.10,即至少犯一次Ⅰ型錯誤的概率翻了一倍。若做10次檢驗的話,至少犯一次Ⅰ型錯誤的概率將上升到0.40(1-0.952),而10次檢驗結論中都正確的概率只有60%。所以說采用Z檢驗或t檢驗隨着均數個數的增加,其組合次數增多,從而降低了統計推論可靠性的概率,增大了犯錯誤的概率
完全隨機設計是采用完全隨機化的分組方法,將全部實驗對象分配到g個處理組(水平組),各組分別接受不同的處理,試驗結束后比較各組均數之間的差別有無統計學意義。
【例子】
某醫生為研究一種四類降糖新葯的療效,以統一的納入標准和排除標准選擇了60名2型糖尿病患者,按完全隨機設計方案將患者分為三組進行雙盲臨床試驗。其中,降糖新葯高劑量組21人、低劑量組19人、對照組20人。對照組服用公認的降糖葯物,治療4周后測得其餐后2小時血糖的下降值(mmol/L),結果如表9-1所示。問治療4周后,餐后2小時血糖下降值的三組總體平均水平是否不同?
總平均數:
各處理組平均數:
總例數:
g為處理組數
1,總變異:全部測量值各不相同,這種變異稱為總變異。總變異的大小可以用均差平方和SS來表示,即各測量值Xij與總平均數差值的平方和,SS總,反映那個了所有測量值之間總的變異程度。
2,組內變異(誤差變異):同一處理組中的受試對象接受相同的處理,其測量值間各不相同。這種變異稱為組內變異。SS組內 組內各測量值Xij與其所在組的均數的差值的平方和,表示隨機誤差的影響。
3,組間變異,各處理組接受處理的水平不同,各組的樣本均數各不相同,這種變異稱為組間變異。其大小可以用各組均數與總均數的離均差平方和SS組間,反應了三組用葯不同的影響(如果處理確實有作用),同時也包括了隨機誤差。
存在組間變異的原因:
(1)隨機誤差
(2)不同處理水平可能對實驗結果的影響
方差分析的基本思想:總變異分解為多個部分,每個部分由某因素的作用來解釋,通過將某因素所致的變異與隨機誤差比較,從而推斷該因素對測定結果有無影響。變異程度除與離均差平方和的大小有關外,還與自由度有關,將各部分離均差平方和除以自由度,比值稱為均方差MS:
如果各組樣本來自相同總體,無處理因素的作用,則組間變異同組內變異一樣,只反應隨機誤差作用的大小。
組間均方與組內均方的比值稱為F統計量:
F值接近於1,就沒有理由拒絕H0(來自相同總體),反之,F值越大,拒絕H0的理由越充分。當H0成立時,F統計量服從F分布,自由度v1和v2,Fv1,v2
v1=組間自由度 = g-1 = 3-1 v2=組內自由度=N-g= 60-3 = 57,查F分布表得到P<0.01,按α=0.05水准,拒絕H0,接受H1有統計學意義,可認為2型糖尿病患者治療4周,其餐后2小時血糖的總體平均水平不全相同。
方差分析的結果若拒絕H0,接受H1,不能說明各組總體均數兩兩間都有差別。如果要分析哪些兩組間有差別,要進行多個均數間的多重比較(卡方檢驗)。當g =2時,方差分析的結果與兩樣本均數比較的t 檢驗等價 t=sqrt(F)。