假設檢驗分參數假設和非參數假設。
假設
先假設原假設H0,對應的反面叫做備擇假設H1。SAS一般沿用的規則是NEYMAN和PEARSON提出的:在控制犯第一類錯誤的原則下,是犯第二類錯誤的概率盡量小(即,原假設受到保護,不能輕易否定。若原假設被否定了,其理由一定是充分的)。反過來思考,若為了是假設更加有說服力,可是讓本猜想本身作為H1,得到的結論為否定H0,就能更加充分證明原本的猜想(類似反證法)。
假設檢驗判斷原則以犯第一類錯誤概率為判斷依據:
P>=α,則接收H0;P<α,則拒絕H0。
檢驗
有了假設就要有檢驗,這里先介紹T檢驗。
進行T檢驗數據源要滿足數據正態性條件:①樣本來自正態分布總體。或者②樣本容量足夠大(若樣本對稱分布,樣本容量>=30即可)。
T檢驗分為:單樣本均值T檢驗、雙樣本均值T檢驗(分為獨立雙樣本均值T檢驗、配對樣本均值T檢驗)。
單樣本均值T檢驗
PROC TTEST DATA=SASHELP.FISH H0=14 PLOTS(SHOWNULL)=INTERVAL; WHERE SPECIES="Bream"; VAR HEIGHT; RUN;
如上代碼中指定H0=14原假設均值為14,默認值為0。PLOTS(SHOWNULL)=INTERVAL指定畫出置信區間圖,SHOWNULL標出假設值在置信區間圖的位置。
看下圖:
首先看到上面的直方圖中核的曲線為樣本數據值的曲線,可以看出分布基本對稱可以用T檢驗進行均值檢驗。這里也可以用PROC UNIVARIATE進行計算偏度也可以判斷分布的對稱性。
再看到圖的下半部分:有盒形圖和置信區間圖重疊了,可以看出樣本均值為◇符號所在地方15多點,置信區間是藍色區域,假設的H0的值在藍色區域外面的14.0的位置。假設值在置信區間之外就已經可以拒絕H0了。
還可以看別的結果,如下圖:
表格中詳細的寫明了一些上圖中無法明確讀出來的值,樣本均值為15.183,95%置信區間為14.508到15.858。重點是T檢驗的結果P=0.001<0.05所有可以拒絕原假設H0。
除了這些結果以外還有:
分開獨立的圖方面閱讀,下面的Q-Q 同樣說明樣本數據基本滿足正態性(點分布在直線左右)。
獨立雙樣本均值T檢驗
進行獨立雙樣本均值T檢驗要滿足三個條件:①雙樣本之間相互獨立②雙樣本均來自正態分布總體③雙樣本方差想等。
PROC TTEST DATA=EX.SCORE PLOTS(SHOWNULL)=INTERVAL;
CLASS GENDER;
VAR SCORE;
RUN;
GENDER中的兩個分類為兩個樣本,結果如下:
第四個表,這里多加了一個F檢驗,假設方差等價H0,其F趨近於1,P>0.05,所以接受原假設,即男女的分數沒有顯著差異(注意:用F檢驗要求無論數據樣本量大小,必須服從正態分布,所以這里僅僅是個參考,還不確定數據是否服從正太分布)。
第三個表,這里用兩種方法做的檢驗,匯總法,齊性方差條件滿足時用,T=1.92,P=0.0582>0.05,所以先接受HO,即即男女的分數沒有顯著差異。用第二種方法,SATTERTHWAITE法,齊性方差條件不滿足時用,得出來的結論是接受,即即即男女的分數有顯著差異。
但是由第二張表看到兩分類的標准差幾乎相等,所以是齊性方差條件已經滿足了所以看匯總發輸出的結果。
第二張表中的置信區間包括0,也可以判斷在0.95 的置信水平下,兩分類顯著性差異不大。
由直方圖看出兩實際數據並不都服從正態分布,所以F檢驗結果僅供參考,不做依據。
看置信區間圖,兩種方法所算出來的置信區間和均值方差一直,和上表結果一致,在此論證男女分數無顯著性差異。
服從正態性,但不完全是正態分布。
單邊T檢驗即檢驗的是υ1-υ2的值,后面加上SIDES=U即可。
匹配樣本均值T檢驗
條件:①兩樣本具有匹配關系②服從正態分布,或者樣本量足夠大;
加入有個條件的前后數據,判斷該條件對樣本有無顯著性影響。
PROC TTEST DATA=PRESSURE; PAIRED SBPBEFORE*SBPAFER; RUN;