在得到一批樣本數據后,人們往往希望從中得到樣本所來自的總體的分布形態是否和某種特定分布相擬合。這可以通過繪制 樣本數據直方圖的方法來進行粗略的判斷。如果需要進行比較准確的判斷,則需要使用非參數檢驗的方法。其中總體分布的卡方檢驗(也記為χ2檢驗)就是一種比 較好的方法。
一、定義
總體分布的卡方檢驗適用於配合度檢驗,是根據樣本數據的實際頻數推斷總體分布與期望分布或理論分布是否有顯著差異。它的零假設H0:樣本來自的總體分布形態和期望分布或某一理論分布沒有顯著差異。
總體分布的卡方檢驗的原理是:如果從一個隨機變量尤中隨機抽取若干個觀察樣本,這些觀察樣本落在X的k個互不相交的子集中的觀察頻數服從一個多項分布,這個多項分布當k趨於無窮時,就近似服從X的總體分布。
因此,假設樣本來自的總體服從某個期望分布或理論分布集的實際觀察頻數同時獲得樣本數據各子集的實際觀察頻數,並依據下面的公式計算統計量Q
,其中,Oi表示觀察頻數;Ei表示期望頻數或理論頻數。
可見Q值越大,表示觀察頻數和理論頻數越不接近;Q值越小,說明觀察頻數和理論頻數越接近。SPSS將自動計算Q統計量,由於Q統計量服從K-1個自由度的X平方分布,因此SPSS將根據X平方分布表給出Q統計量所對應的相伴概率值。
如果相伴概率小於或等於用戶的顯著性水平,則應拒絕零假設H0,認為樣本來自的總體分布形態與期望分布或理論分布存在顯著差異;如果相伴概率值大於顯著性水平,則不能拒絕零假設HO,認為樣本來自的總體分布形態與期望分布或理論分布不存在顯著差異。
因此,總體分布的卡方檢驗是一種吻合性檢驗,比較適用於一個因素的多項分類數據分析。總體分布的卡方檢驗的數據是實際收集到的樣本數據,而非頻數數據。
二、實例
某地一周內各日患憂郁症的人數分布如下表所示,請檢驗一周內各日人們憂郁數是否滿足1:1:2:2:1:1:1。
周日 | 患者數 |
1 | 31 |
2 | 38 |
3 | 70 |
4 | 80 |
5 | 29 |
6 | 24 |
7 | 31 |
實施步驟:
1、打開PAWS Statistics 18(即SPSS 18),導入數據。
2、數據--加權個案,如下圖所示
3、分析--非參數檢驗--卡方檢驗
卡方檢驗:http://baike.baidu.com/view/852140.htm