01 什么是卡方檢驗:
卡方檢驗就是檢驗兩個變量之間有沒有關系。
以運營為例:
- 卡方檢驗可以檢驗男性或者女性對線上買生鮮食品有沒有區別;
- 不同城市級別的消費者對買SUV車有沒有什么區別;
如果有顯著區別的話,我們會考慮把這些變量放到模型或者分析里去。
02 投硬幣
那我們先從一個最簡單的例子說起。
1) 根據投硬幣觀察到的正面,反面次數,判斷這個硬幣是均衡的還是不均衡。
現在有一個正常的硬幣,我給你投50次,你覺得會出現幾個正面,幾個反面?

按照你的經驗你會這么思考,最好的情況肯定是25個正面,25個反面,
但是肯定不可能這么正正好好的,嗯,差不多28個正面,22個反面吧;
23個正面,27個反面也可能的,
但是10個正面,40個反面肯定不可能的,除非我運氣真的那么碰巧。
你上面的這個思維方式,就是拿已經知道的結果(硬幣是均衡的,沒有人做過手腳),推測出會出現的不同現象的次數。
而卡方檢驗是拿觀察到的現象(投正面或反面的次數或者頻數),來判斷這個結果(硬幣是不是均衡的)。
繼續上面這個例子,
如果我不知道這個硬幣是不是均衡的,我想用正面,反面的頻次來判斷,我投了50次,
其中28個正面,22個反面。我怎么用卡方檢驗來證明這個硬幣是均衡的還是不均衡的呢?

這里要引出卡方檢驗的公式:

這個公式可以幫我們求出卡方檢驗的值,我們用
- 1 這個公式求得的值
- 2 自由度(degree of freedom,不熟悉的可以去看自由度
- 3 置信度
其中,自由度我們可以求出來,置信度的話,我們按照我們自己意願挑選,一般我們會挑90%或者95%。
這三個數值計算方法如下:

我們拿到這3個信息,去查表,因為0.72小於查表得到的3.841,所以我們得出這個硬幣是均衡的結論。

這里還涉及到假設檢驗中,拒絕H0還是不拒接H0,這篇文章就不詳細展開了。
原文鏈接:https://www.jianshu.com/p/807b2c2bfd9b
來源:簡書