卡方分布與卡方檢驗

本文轉載自查看原文 2020-03-24 22:25 1336 統計學

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇，主要是比較兩個及兩個以上樣本率( 構成比）以及兩個分類變量的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。

它在分類資料統計推斷中的應用包括：兩個率或兩個構成比比較的卡方檢驗；多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

舉例：

表1 實際統計表格

（一般：條件2 = ¬條件1 ）通過簡單的統計，得出在條件1和條件2下，出現情況1的比例分別為30.94%和25.00%，

兩者的差別有可能是誤差導致，也有可能是在條件1下，情況1出現的比例更高。（實際假設：在條件1下，情況1出現的比例更高，即條件1 對情況1的出現有影響）

為了確定 實際假設 是否成立，先假設條件1 對情況1 的出現沒有影響，

（理論假設： 條件1 對情況1 的出現沒有影響，理論假設 = ¬實際假設）

在實際統計中，情況1出現的比例為28.29%，那么在理論假設下（即條件1 對情況1 的出現沒有影響），表1 條件1和情況1 對應的那一格的數據應該為 139 * 28.29% = 39.3231 。

表1 條件1和情況2 對應的那一格的數據應該為 139 * (1-28.29%) = 99.6769。

同樣，表1 條件2 的那幾格也按照上面的方式填。

這樣得到，理論（條件1 對情況1 的出現沒有影響）的表格，如下

表2 理論統計表

如果 理論假設 （條件1 對情況1 的出現沒有影響）成立，那么理論值與實際值的差別應該會很小。

理論值與實際值的差別的計算就會用到卡方公式：

將表1 和表2 對應格的數據帶入公式得到卡方值

接下來是利用這個卡方值，通過查卡方分布的臨界表，來判斷 理論假設（條件1 對情況1 的出現沒有影響）是否成立。

這里需要用到一個自由度的概念，自由度等於F = (行數 - 1) * (列數 - 1)，對四格表，自由度F = 1。

圖1 卡方分布表

查圖中的表數據第一行，在0.045 和2.71 之間，對應的 P值在 0.1 到 0.5 之間，

說明 實際假設 跟 理論假設 的差別很小（以 理論假設 為基礎），只有0.5（1-0.5）到 0.9 （1-0.1）之間的把握可以接受 實際假設 成立，那么即 理論假設 成立。

相反，實際假設 跟 理論假設 的差別很大（以 理論假設 為基礎），P值越小，有越大的把握接受 實際假設 成立。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。