假設檢驗
-
什么是假設:對總體參數(均值,比例等)的具體數值所作的陳述。比如,我認為新的配方的葯效要比原來的更好。
-
什么是假設檢驗:先對總體的參數提出某種假設,然后利用樣本的信息判斷假設是否成立的過程。比如,上面的假設我是要接受還是拒絕呢。
假設檢驗的應用:
-
推廣新的教育方案后,教學效果是否有所提高
-
醉駕判定為刑事犯罪后是否會使得交通事故減少
-
男生和女生在選文理科時是否存在性別因素影響
假設檢驗的基本思想:

顯著性水平:
-
一個概率值,原假設為真時,拒絕原假設的概率,表示為 alpha 常用取值為0.01, 0.05, 0.10
-
一個公司要來招聘了,本來實際有200個人准備混一混,但是公司希望只有5%的人是渾水摸魚進來的,所以可能會有200*0.05=4個人混進來,所謂顯著性水平α,就是你允許最多有多大比例渾水摸魚的通過你的測試。
假設檢驗的步驟:
- 提出假設
- 確定適當的檢驗統計量
- 規定顯著性水平
- 計算檢驗統計量的值
- 做出統計決策
原假設與備擇建設:
- 待檢驗的假設又叫原假設,也可以叫零假設,表示為H0。(零假設其實就是表示原假設一般都是說沒有差異,沒有改變。。。)
- 與原假設對比的假設叫做備擇假設,表示為H1
- 一般在比較的時候,主要有等於,大於,小於
檢驗統計量:
- 計算檢驗的統計量
- 根據給定的顯著性水平,查表得出相應的臨界值
- 將檢驗統計量的值與顯著性水平的臨界值進行比較
- 得出拒絕或不拒絕原假設的結論
檢驗中常說的小概率:
- 在一次試驗中,一個幾乎不可能發生的事件發生的概率
- 在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設
- 小概率由我們事先確定
P值:
- 是一個概率值
- 如果原假設為真,P-值是抽樣分布中大於或小於樣本統計量的概率
- 左側檢驗時,P-值為曲線上方小於等於檢驗統計量部分的面積
- 右側檢驗時,P-值為曲線上方大於等於檢驗統計量部分的面積
左側檢驗與右側檢驗


-
當關鍵詞有不得少於/低於的時候用左側,比如燈泡的使用壽命不得少於/低於700小時時
-
當關鍵詞有不得多於/高於的時候用右側,比如次品率不得多於/高於5%時
雙側檢驗

-
單側檢驗指按分布的一側計算顯著性水平概率的檢驗。用於檢驗大於、小於、高於、低於、優於、劣於等有確定性大小關系的假設檢驗問題。這類問題的確定是有一定的理論依據的。假設檢驗寫作:μ1<μ2或μ1>μ2。
-
雙側檢驗指按分布兩端計算顯著性水平概率的檢驗, 應用於理論上不能確定兩個總體一個一定比另一個大或小的假設檢驗。一般假設檢驗寫作H1:μ1≠μ2。
例如,某種零件的尺寸,要求其平均長度為10cm,大於或小於10cm均屬於不合格我們想要證明(檢驗)大於或小於這兩種可能性中的任何一種是否成立
建立的原假設與備擇假設應為:
H0: μ = 10 H1: μ ≠ 10
檢驗結果:
單側檢驗
- 若p值 > α,不拒絕 H0
- 若p值 < α, 拒絕 H0
雙側檢驗
- 若p-值 > α/2, 不拒絕 H0
- 若p-值 < α/2, 拒絕 H0
總體均值檢驗

統計量Z值的計算公式為:
如果檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著,其Z值計算公式為:

如果檢驗來自兩個的兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著,其Z值計算公式為:

Z檢驗原理:
- 當總體標准差已知,樣本量較大時用標准正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著
- 標准正態變換后Z的界值

Z檢驗實例1:
研究正常人與高血壓患者膽固醇含量(mg%)的資料如下,試比較兩組血清膽固醇含量有無差別。


確定P值, 作出推斷結論
本例Z=10.40>1.96(查表得0.975對應值),故P <0.05,按α=0.05水准拒絕H0,接受H1,可以認為正常人與高血壓患者的血清膽固醇含量有差別,高血壓患者高於正常人。
Z檢驗實例2:
某機床廠加工一種零件,根據經驗知道,該廠加工零件的橢圓度近似服從正態分布,其總體均值為μ=0.081mm,總體標准差為σ= 0.025 。今換一種新機床進行加工,抽取n=200個零件進行檢驗,得到的橢圓度為0.076mm。試問新機床加工零件的橢圓度的均值與以前有無顯著差異?(α=0.05)

Z檢驗實例3:
根據過去大量資料,某廠生產的燈泡的使用壽命服從正態分布N~(1020,100^2)。現從最近生產的一批產品中隨機抽取16只,測得樣本平均壽命為1080小時。試在0.05的顯著性水平下判斷這批產品的使用壽命是否有顯著提高?(α=0.05)

T檢驗:
根據研究設計,t檢驗有三種形式:
- 單個樣本的t檢驗:
用來比較一組數據的平均值和一個數值有無差異。例如,你選取了5個人,測定了他們的身高,要看這五個人的身高平均值是否高於、低於還是等於1.70m,就需要用這個檢驗方法。
- 配對樣本均數t檢驗(非獨立兩樣本均數t檢驗)
用來看一組樣本在處理前后的平均值有無差異。比如,你選取了5個人,分別在飯前和飯后測量了他們的體重,想檢測吃飯對他們的體重有無影響,就需要用這個t檢驗。
- 兩個獨立樣本均數t檢驗
用來看兩組數據的平均值有無差異。比如,你選取了5男5女,想看男女之間身高有無差異,這樣,男的一組,女的一組,這兩個組之間的身高平均值的大小比較可用這種方法。
單個樣本t檢驗
- 又稱單樣本均數t檢驗(one sample t test),適用於樣本均數與已知總體均數μ0的比較,目的是檢驗樣本均數所代表的總體均數μ是否與已知總體均數μ0有差別。
- 已知總體均數μ0一般為標准值、理論值或經大量觀察得到的較穩定的指標值。
- 應用條件,總體標准α未知的小樣本資料,且服從正態分布。
實例:
臨界值表:http://www.docin.com/p-1173562569.html
以往通過大規模調查已知某地新生兒出生體重為3.30kg。從該地難產兒中隨機抽取35名新生兒,平均出生體重為3.42kg,標准差為0.40kg,問該地難產兒出生體重是否與一般新生兒體重不同?
- 建立檢驗假設,確定檢驗水准

- 計算檢驗統計量

本例自由度v=n-1=35-1=34,查表得得t0.05/2,34=2.032。
因為t < t0.05/2,34,故P>0.05,按 α=0.05水准,不拒絕H0,差別無統計學意義,尚不能認為該地難產兒與一般新生兒平均出生體重不同。
配對樣本均數t檢驗:
- 簡稱配對t檢驗(paired t test),又稱非獨立兩樣本均數t檢驗,適用於配對設計計量資料均數的比較。
- 配對設計(paired design)是將受試對象按某些特征相近的原則配成對子,每對中的兩個個體隨機地給予兩種處理。
配對樣本均數t檢驗原理:
-
配對設計的資料具有對子內數據一一對應的特征,研究者應關心是對子的效應差值而不是各自的效應值。
-
進行配對t檢驗時,首選應計算各對數據間的差值d,將d作為變量計算均數。
-
配對樣本t檢驗的基本原理是假設兩種處理的效應相同,理論上差值d的總體均數μd 為0,現有的不等於0差值樣本均數可以來自μd = 0的總體,也可以來μd ≠ 0的總體。
-
可將該檢驗理解為差值樣本均數與已知總體均數μd(μd = 0)比較的單樣本t檢驗,其檢驗統計量為:

實例:
有12名接種卡介苗的兒童,8周后用兩批不同的結核菌素,一批是標准結核菌素,一批是新制結核菌素,分別注射在兒童的前臂,兩種結核菌素的皮膚浸潤反應平均直徑(mm)如表所示,問兩種結核菌素的反應性有無差別。



兩獨立樣本t檢驗
-
兩獨立樣本t 檢驗(two independent sample t-test),又稱成組 t 檢驗。
-
適用於完全隨機設計的兩樣本均數的比較,其目的是檢驗兩樣本所來自總體的均數是否相等。
-
完全隨機設計是將受試對象隨機地分配到兩組中,每組患者分別接受不同的處理,分析比較處理的效應。
-
兩獨立樣本t檢驗要求兩樣本所代表的總體服從正態分布N(μ1,σ2)和N(μ2,σ2),且兩總體方差σ12、σ22相等,即方差齊性。若兩總體方差不等需要先進行變換
兩獨立樣本t檢驗原理
兩獨立樣本t檢驗的檢驗假設是兩總體均數相等,即H0:μ1=μ2,也可表述為μ1-μ2=0,這里可將兩樣本均數的差值看成一個變量樣本,則在H0條件下兩獨立樣本均數t檢驗可視為樣本與已知總體均數μ1-μ2=0的單樣本t檢驗, 統計量計算公式為:

實例:
25例糖尿病患者隨機分成兩組,甲組單純用葯物治療,乙組采用葯物治療合並飲食療法,二個月后測空腹血糖(mmol/L)如表所示,問兩種療法治療后患者血糖值是否相同?



T檢驗應用條件:
- 兩組計量資料小樣本比較
- 樣本對總體有較好代表性,對比組間有較好組間均衡性——隨機抽樣和隨機分組
- 樣本來自正態分布總體,配對t檢驗要求差值服從正態分布,大樣本時,用z檢驗,且正態性要求可以放寬
- 兩獨立樣本均數t檢驗要求方差齊性——兩組總體方差相等或兩樣本方差間無顯著性
正態性檢驗和兩總體方差的齊性檢驗
正態性檢驗
-
圖示法:常用的圖示法包括P-P圖法和Q-Q圖法。圖中數據呈直線關系可認為呈正態分布,不呈直線關系可認為呈偏態分布。
-
偏度檢驗:主要計算偏度系數,H0:G1=0,總體分布對稱 H1:G1≠0,總體分布不對稱。

- 峰度檢驗,主要計算峰度系數,H0:G2=0,總體分布為正態峰,H1:G2≠0,總體分布不是正態峰

方差齊性檢驗

式中S12為較大的樣本方差S22為較小的樣本方差,分子的自由度為v1,分母的自由度為v2,相應的樣本例數分別為n1和n2 。F值是兩個樣本方差之比,如僅是抽樣誤差的影響,它一般不會離1太遠,反之,F 值較大,兩總體方差相同的可能性較小。F分布就是反映此概率的分布。求得F值后,查附表,F界值表得P值,F<Fα/2(ν1,ν2),則P>α,不拒絕H0,可認為兩總體方差相等; F≥Fα/2(ν1,ν2),則P≤α,拒絕H0,可認為兩總體方差不等。
實例:
由X線胸片上測得兩組患者的肺門橫徑右側距R1值 (cm),計算的結果如下,比較其方差是否齊性

- (1)建立檢驗假設 ,確定檢驗水准

- (2)計算F值

- (3)確定P值 作出推斷結論 本例ν1=10-1=9,ν2=50-1=49,查附表4,F界值表, F0.10/2(9,49=2.80,得P<0.05, 按α=0.10,拒絕H0, 接受H1,故可認為兩總體方差不齊。
方差不齊時,兩小樣本均數的比較,可選用以下方法:① 采用近似法t‘ 檢驗; ② 采用適當的變量變換,使達到方差齊的要求; ③采用秩和檢驗。
卡方檢驗(Chi-square test)
用於檢驗兩個(或多個)率或構成比之間差別是否有統計學意義,配對卡方檢驗檢驗配對計數資料的差異是否有統計學意義。
基本思想:
檢驗實際頻數(A)和理論頻數(T)的差別是否由抽樣誤差所引起的。也就是由樣本率(或樣本構成比)來推斷總體率或構成比。
實例:
兩種葯物治療胃潰瘍有效率的比較

理論頻數與實際頻數的差別:

ARC是位於R行C列交叉處的實際頻數, TRC是位於R行C列交叉處的理論頻數。 ( ARC - TRC )反映實際頻數與理論頻數的差距,除以TRC 為的是考慮相對差距。所以,χ^2 值反映了實際頻數與理論頻數的吻合程度, χ^2 值大,說明實際頻數與理論頻數的差距大。 χ^2 值的大小除了與實際頻數和理論頻數的差的大小有關外,還與它們的行、列數有關。即自由度的大小。
理論頻數根據假設來計算的:
無效假設是A葯組與B葯組的總體有效率相等,均等於合計的陽性率66.67%(110/165)。那么理論上,A葯組的85例中陽性人數應為85(110/165)=56.67,陰性人數為85(55/165)=28.33;同理,B葯組的80例中陽性人數應為80(110/165)=53.33,陰性人數為80(55/165)=26.67。
一般的四格表:


若檢驗假設H0:π1=π2成立,四個格子的實際頻數A 與理論頻數T 相差不應該很大,即統計量χ2 不應該很大。如果χ2 值很大,即相對應的P 值很小,若 P≤α,則反過來推斷A與T相差太大,超出了抽樣誤差允許的范圍,從而懷疑H0的正確性,繼而拒絕H0,接受其對立假設H1,即π1≠π2 。
實例:
某葯品檢驗所隨機抽取574名成年人,研究抗生素的耐葯性(資料如表8-11)。問兩種人群的耐葯率是否一致?


(1)建立假設並確定檢驗水准
- H0:兩種人群對該抗生素的耐葯率相同,即π1 = π2; (兩總體率相等)
- H1:兩種人群對該抗生素的耐葯率不同,即π1≠π2 ;(兩總體不相等)
- a=0.05
(2)計算檢驗統計量

(3)得出結果
查表確定P值, P>0.05,得出結論。按0.05水准,不拒絕H0,可以認為兩組人群對該抗生素的耐葯率的差異無統計學意義。
假設檢驗中的兩類錯誤
第一類錯誤(棄真錯誤):
- 原假設為真時拒絕原假設
- 第一類錯誤的概率為α
第二類錯誤(取偽錯誤):
- 原假設為假時接受原假設
- 第二類錯誤的概率為β


實例:
一個公司有員工3000 人(研究的總體) ,為了檢驗公司員工工資統計報表的真實性,研究者作了 50 人的大樣本隨機抽樣調查,人均收入的調查結果是: X (樣本均值)=871 元;S(標准差)=21 元 問能否認為統計報表中人均收入μ0=880 元的數據是真實的?(顯著性水平α=0.05 )
- 原假設 H0:調查數據 871 元與報表數據 880 元之間沒有顯著性差異,公司員工工資均值的真實情況為880 元;
- 假設 H1:調查數據和報表數據之間有顯著性的差異,公司員工工資均值的真實情況不是880 元。
α 錯誤出現原因:
我們只抽了一個樣本,而個別的樣本可能是特殊的,不管你的抽樣多么符合科學抽樣的要求。理論上講,在 3000 個員工中隨機抽取 50 人作為調查樣本,有很多種構成樣本的可能性,相當於 3000 選 50,這個數目是很大的。這樣,在理論上就有存在很多個樣本平均數。也就是說,由於小概率事件的出現,我們把本來真實的原假設拒絕了。這就是 α 錯誤出現的原因。
β 錯誤出現原因:
第二個問題是,統計檢驗的邏輯犯了從結論推斷前提的錯誤。命題 B 是由命題 A 經演繹推論出來的,或寫作符號 A→B,命題 C 是我們在檢驗中所依據操作法則。如果A 是真的,且我們從 A 到 B 的演繹推論如果也是正確的,那么B 可能是真實的。相反,如果結果 B是真實的,那么就不能得出A 必定是真實的結論。這就是 β錯誤出現的原因。
α 錯誤概率計算:
由實際推斷原理引起的,即“小概率事件不會發生”的假定所引起的,所以有理由將所有小概率事件發生的概率之和或者即顯著性水平(α=0.05)看作α錯誤發生的概率,換言之,α錯誤發生的概率為檢驗所選擇的顯著性水平。如果是單側檢驗,棄真錯誤的概率則為 α/2。
β錯誤的概率計算:
犯β錯誤的概率的計算是比較復雜的,由於β錯誤的出現原因是屬於邏輯上的,所以在總體參數不知道的情況下是無法計算它出現概率的大小的。
我們在以上例子的基礎上進一步設計:這個公司職員的實際工資不是880 元,而是是 870 元,原假設為偽,仍然假設實際工資是880元。這樣我們就可以在總體均值為 870 元和 880元兩種情況下, 分別作出兩條正態分布曲線 (A線和 B 線)

犯 β錯誤的概率大小就是相對正態曲線A 而言,圖 1 中陰影部分的面積:
ZX1=1.41 ;ZX2=5.59
查標准正態分布表可知,β=Φ(ZX2)-Φ(ZX1)=0.0793
結果表明,如果總體的真值為 870 元,而虛無假設為880元的話,那么,平均而言每100 次抽樣中,將約有8次把真實情況當作880 元被接受,即犯β錯誤的概率大小是0.0793。
犯第一類錯誤的危害較大,由於報告了本來不存在的現象,則因此現象而衍生出的后續研究、應用的危害將是不可估量的。想對而言,第二類錯誤的危害則相對較小,因為研究者如果對自己的假設很有信心,可能會重新設計實驗,再次來過,直到得到自己滿意的結果(但是如果對本就錯誤的觀點堅持的話,可能會演變成第一類錯誤)。