假設檢驗


假設檢驗分參數假設和非參數假設。

假設

先假設原假設H0,對應的反面叫做備擇假設H1。SAS一般沿用的規則是NEYMAN和PEARSON提出的:在控制犯第一類錯誤的原則下,是犯第二類錯誤的概率盡量小(即,原假設受到保護,不能輕易否定。若原假設被否定了,其理由一定是充分的)。反過來思考,若為了是假設更加有說服力,可是讓本猜想本身作為H1,得到的結論為否定H0,就能更加充分證明原本的猜想(類似反證法)。

假設檢驗判斷原則以犯第一類錯誤概率為判斷依據:

P>=α,則接收H0;P<α,則拒絕H0。

檢驗

有了假設就要有檢驗,這里先介紹T檢驗。

進行T檢驗數據源要滿足數據正態性條件:①樣本來自正態分布總體。或者②樣本容量足夠大(若樣本對稱分布,樣本容量>=30即可)。

T檢驗分為:單樣本均值T檢驗、雙樣本均值T檢驗(分為獨立雙樣本均值T檢驗、配對樣本均值T檢驗)。

單樣本均值T檢驗

PROC TTEST DATA=SASHELP.FISH H0=14 PLOTS(SHOWNULL)=INTERVAL;
    WHERE SPECIES="Bream";
    VAR HEIGHT;
RUN; 

如上代碼中指定H0=14原假設均值為14,默認值為0。PLOTS(SHOWNULL)=INTERVAL指定畫出置信區間圖,SHOWNULL標出假設值在置信區間圖的位置。

看下圖:

首先看到上面的直方圖中核的曲線為樣本數據值的曲線,可以看出分布基本對稱可以用T檢驗進行均值檢驗。這里也可以用PROC UNIVARIATE進行計算偏度也可以判斷分布的對稱性。

再看到圖的下半部分:有盒形圖和置信區間圖重疊了,可以看出樣本均值為◇符號所在地方15多點,置信區間是藍色區域,假設的H0的值在藍色區域外面的14.0的位置。假設值在置信區間之外就已經可以拒絕H0了。

還可以看別的結果,如下圖:

表格中詳細的寫明了一些上圖中無法明確讀出來的值,樣本均值為15.183,95%置信區間為14.508到15.858。重點是T檢驗的結果P=0.001<0.05所有可以拒絕原假設H0。

除了這些結果以外還有:

 

 

分開獨立的圖方面閱讀,下面的Q-Q 同樣說明樣本數據基本滿足正態性(點分布在直線左右)。

獨立雙樣本均值T檢驗

進行獨立雙樣本均值T檢驗要滿足三個條件:①雙樣本之間相互獨立②雙樣本均來自正態分布總體③雙樣本方差想等。

PROC TTEST DATA=EX.SCORE PLOTS(SHOWNULL)=INTERVAL;
    CLASS GENDER;
    VAR SCORE;
RUN;

GENDER中的兩個分類為兩個樣本,結果如下:

第四個表,這里多加了一個F檢驗,假設方差等價H0,其F趨近於1,P>0.05,所以接受原假設,即男女的分數沒有顯著差異(注意:用F檢驗要求無論數據樣本量大小,必須服從正態分布,所以這里僅僅是個參考,還不確定數據是否服從正太分布)。

第三個表,這里用兩種方法做的檢驗,匯總法,齊性方差條件滿足時用,T=1.92,P=0.0582>0.05,所以先接受HO,即即男女的分數沒有顯著差異。用第二種方法,SATTERTHWAITE法,齊性方差條件不滿足時用,得出來的結論是接受,即即即男女的分數有顯著差異。

但是由第二張表看到兩分類的標准差幾乎相等,所以是齊性方差條件已經滿足了所以看匯總發輸出的結果。

第二張表中的置信區間包括0,也可以判斷在0.95 的置信水平下,兩分類顯著性差異不大。

由直方圖看出兩實際數據並不都服從正態分布,所以F檢驗結果僅供參考,不做依據。

 

看置信區間圖,兩種方法所算出來的置信區間和均值方差一直,和上表結果一致,在此論證男女分數無顯著性差異。

 

服從正態性,但不完全是正態分布。

單邊T檢驗即檢驗的是υ1-υ2的值,后面加上SIDES=U即可。

匹配樣本均值T檢驗

條件:①兩樣本具有匹配關系②服從正態分布,或者樣本量足夠大;

加入有個條件的前后數據,判斷該條件對樣本有無顯著性影響。

PROC TTEST DATA=PRESSURE;
    PAIRED SBPBEFORE*SBPAFER;
RUN;

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM