今天看到一篇不錯的博文,有感,記錄下來,相對來說講到了本質,也很容易理解。https://www.cnblogs.com/think-and-do/p/6509239.html
首先,老生常談,還是那三大分布
T,卡方,F,(正態不是三大)
T是厚尾的,對小樣本量做檢驗,對於樣本難獲得的領域很有用,比如醫葯,生物,前面寫過一個關於T檢驗的記錄。
卡方檢驗用來做獨立性檢驗和符合某個標准分布(正態檢驗)
n個相互獨立的隨機變量服從正態分布,他們的平方和構成一個新的隨機變量,服從卡方分布,n為自由度。
檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定數據與指定分布的吻合程度。如:用它檢驗抽獎機收益的觀察頻數與我們所期望的吻合程度。
2、檢驗兩個變量的獨立性:通過這個方法檢查變量之間是否存在某種關系。
F分布用來做方差分析,具體見前面的博文
但是重點是要說這篇博文的精妙之處。
有三個不同學校的學生英語考試成績不同,原因是什么?為什么不用T檢驗
如果使用T檢驗,需要3次,如果研究10個學校,需要45個,組合次數多,降低可靠程度,如果我們做兩次檢驗,每次都為0.05的顯著性水平,那么不犯Ⅰ型錯誤的概率就變為0.95×0.95=0.90。此時犯Ⅰ型錯誤的概率則為1-0.90=0.10,即至少犯一次Ⅰ型錯誤的概率翻了一倍。若做10次檢驗的話,至少犯一次Ⅰ型錯誤的概率將上升到0.40(1-0.952),而10次檢驗結論中都正確的概率只有60%。所以說采用Z檢驗或t檢驗隨着均數個數的增加,其組合次數增多,從而降低了統計推論可靠性的概率,增大了犯錯誤的概率。
完全隨機設計是采用完全隨機化的分組方法,將全部實驗對象分配到g個處理組(水平組),各組分別接受不同的處理,試驗結束后比較各組均數之間的差別有無統計學意義。
【例子】
某醫生為研究一種四類降糖新葯的療效,以統一的納入標准和排除標准選擇了60名2型糖尿病患者,按完全隨機設計方案將患者分為三組進行雙盲臨床試驗。其中,降糖新葯高劑量組21人、低劑量組19人、對照組20人。對照組服用公認的降糖葯物,治療4周后測得其餐后2小時血糖的下降值(mmol/L),結果如表9-1所示。問治療4周后,餐后2小時血糖下降值的三組總體平均水平是否不同?
方差分析的基本思想:總變異分解為多個部分,每個部分由某因素的作用來解釋,通過將某因素所致的變異與隨機誤差比較,從而推斷該因素對測定結果有無影響。變異程度除與離均差平方和的大小有關外,還與自由度有關,將各部分離均差平方和除以自由度,比值稱為均方差MS。
如果各組樣本來自相同總體,無處理因素的作用,則組間變異同組內變異一樣,只反應隨機誤差作用的大小。
組間均方與組內均方的比值稱為F統計量:
F值接近於1,就沒有理由拒絕H0(來自相同總體),反之,F值越大,拒絕H0的理由越充分。當H0成立時,F統計量服從F分布,自由度v1和v2,Fv1,v2
v1=組間自由度 = g-1 = 3-1 v2=組內自由度=N-g= 60-3 = 57,查F分布表得到P<0.01,按α=0.05水准,拒絕H0,接受H1有統計學意義,可認為2型糖尿病患者治療4周,其餐后2小時血糖的總體平均水平不全相同。
方差分析的結果若拒絕H0,接受H1,不能說明各組總體均數兩兩間都有差別。如果要分析哪些兩組間有差別,要進行多個均數間的多重比較(卡方檢驗)。當g =2時,方差分析的結果與兩樣本均數比較的t 檢驗等價 t=sqrt(F)。
上例中的自由度計算非常具有代表意義,這是最簡單和基礎的知識,但是很重要,因此再記錄一遍,加深印象。
