卡方分布與卡方檢驗


卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。

 

它在分類資料統計推斷中的應用包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

舉例:

實際

情況1

情況2

合計

情況1的比例

條件1

43

96

139

30.94%

條件2

28

84

112

25.00%

合計

71

180

251

28.29%

表1 實際統計表格

(一般: 條件2 = ¬條件1 )通過簡單的統計,得出在條件1和條件2下,出現情況1的比例分別為30.94%和25.00%,

兩者的差別有可能是誤差導致,也有可能是 在條件1下,情況1出現的比例更高。( 實際假設:在條件1下,情況1出現的比例更高 ,即 條件1 對情況1的出現有影響

為了確定 實際假設 是否成立,先假設 條件1 對情況1 的出現 沒有影響

( 理論假設: 條件1 對情況1 的出現沒有影響 ,理論假設 = ¬實際假設)

在實際統計中,情況1出現的比例為28.29%,那么在理論假設下(即條件1 對情況1 的出現沒有影響),表1 條件1和情況1 對應的那一格的數據應該為 139 * 28.29% = 39.3231 。

表1 條件1和情況2 對應的那一格的數據應該為 139 * (1-28.29%) = 99.6769。

同樣,表1 條件2 的那幾格也按照上面的方式填。

這樣得到,理論(條件1 對情況1 的出現沒有影響)的表格,如下

理論

情況1

情況2

合計

情況1的比例

條件1

39.3231

99.6769

139

28.29%

條件2

31.6848

80.3152

112

28.29%

合計

71

180

251

28.29%

表2 理論統計表

如果 理論假設 (條件1 對情況1 的出現沒有影響) 成立,那么理論值與實際值的差別應該會很小。

 

理論值與實際值的差別的計算就會用到卡方公式:

將 表1 和 表2 對應格的數據帶入公式得到 卡方值

接下來是利用這個 卡方值 ,通過查 卡方分布的臨界表 ,來判斷 理論假設(條件1 對情況1 的出現沒有影響)是否成立。

這里需要用到一個自由度的概念,自由度等於F = (行數 - 1) * (列數 - 1),對四格表,自由度F = 1。

圖1 卡方分布表

查圖中的表數據第一行, 在0.045 和2.71 之間,對應的 P值在 0.1 到 0.5 之間,

說明 實際假設 理論假設 的差別很 (以 理論假設 為基礎),只有0.5(1-0.5)到 0.9 (1-0.1)之間的把握可以接受 實際假設 成立,那么即 理論假設 成立。

 

相反,實際假設 理論假設 的差別很 (以 理論假設 為基礎),P值越小,有越大的把握接受 實際假設 成立。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM