一、卡方分布
1. 定義
設 X1..Xn是服從標准正態分布的隨機變量,則稱統計量
服從自由度為n的卡方分布(標准正態分布隨機變量的平方和),記為,其中v稱為自由度。
卡方分布期望和方差:
。
2. 外形(取決於自由度)
3. 統計量計算
,
為實際頻數,
為期望頻數。
4. 分布的兩個主要用途
分布主要用於檢查實際結果與期望結果之間是否存在顯著差別。
- 檢驗擬合優度,檢驗一組給定的數據與指定分布的吻合程度
- 檢驗兩個變量的關聯性
二、卡方檢驗
1. 利用分布進行假設檢驗步驟
- 確定H0和H1
- 計算期望頻數和自由度
- 通過自由度和顯著水平確定拒絕域
- 計算檢驗統計量
- 查看統計量是否位於拒絕域內
2. 自由度v
自由度值 = 獨立的期望頻數 - 限制條件數 = (行數-1)* (列數-1)
3. 計算拒絕域
分布進行檢驗為單側檢驗,右側作為拒絕域,臨界值 =
(查表可得)
4. 計算統計量
5. 查看統計量是否位於拒絕域內
若統計量位於臨界值內或者p值小於顯著性水平,則有充分利用拒絕H0。
三、例題
1. 下表列出某骰子的觀察頻數,查看這些數據,並以1%的顯著性水平進行檢驗,檢驗是否有足夠正確說明骰子不公正。(擬合優度,檢驗一組數據與指定分布的吻合程度)
數值 | 1 | 2 | 3 | 4 | 5 | 6 |
頻數 | 107 | 198 | 192 | 125 | 132 | 248 |
第一步:確定H0 H1
H0:骰子公正,即每面概率為1/6。
H1:骰子不公正
第二步:計算期望頻數和自由度
數值 | 1 | 2 | 3 | 4 | 5 | 6 |
期望頻數 | 167 | 167 | 167 | 167 | 167 | 167 |
自由度 = 6-1=5
第三步:確定拒絕域
顯著性水平 = 0.01 ,自由度 = 5,則 = 15.09,於是拒絕域為>15.09的范圍。
第四步:計算檢驗統計量
= 88.24
第五步:查看統計量是否位於拒絕域內
由於=88.24>15.09,所以統計量位於拒絕域內。
第六步:做出決策
在顯著性水平為1%的情況下,有足夠理由拒絕原假設。
2.我們想知道不吃晚飯對體重下降有沒有影響,顯著性水平=0.05(檢驗變量之間的相關性)
體重下降 | 體重未下降 | 合計 | 體重下降率 | |
吃晚飯組 | 123 | 467 | 590 | 20.85% |
不吃晚飯組 | 45 | 106 | 151 | 29.80% |
合計 | 168 | 573 | 741 | 22.67% |
第一步:確定H0 H1
H0:不吃晚飯對體重下降沒有影響,即吃不吃晚飯的體重下降率相等;
H1:不吃晚飯對體重下降有顯著影響,即吃不吃晚飯的體重下降率不相等
第二步:計算期望頻數和自由度
體重下降 | 體重未下降 | 合計 | |
吃晚飯 | 133.765 | 456.234 | 590 |
不吃晚飯 | 34.2348 | 116.765 | 151 |
合計 | 168 | 573 | 741 |
自由度 = (2-1)(2-1) = 1
第三步:計算拒絕域
顯著性水平=0.05 ,自由度 = 1,則 = 3.84
第四步:計算檢驗統計量
= 5.498
第五步:查看統計量是否位於拒絕域內
由於 = 5.498>3.84,統計量位於拒絕域內,有理由拒絕H0,認為不吃晚飯對體重下降有顯著影響。
2020-05-16 15:41