卡方分布和p_value小結

本文轉載自查看原文 2020-08-07 16:51 597 機器學習實戰

一、什么是卡方分布？什么是卡方檢驗？卡方檢驗有什么作用？

n個獨立同分布(標准正態分布N(0,1))變量的平方和服從自由度為n的卡方分布。

卡方檢驗的基本思想是：根據樣本數據推斷總體分布與期望分布是否有顯著性差異，或者推斷兩個分類變量是否相關或者獨立。一般可以設原假設為：觀察頻數與期望頻數沒有差異，或者兩個變量相互獨立不相關。實際應用中，我們先假設原假設成立，計算出卡方值，卡方表示觀察值與理論值間的偏離程度。

卡方值的計算公式：

A是觀察值，即真實統計值；
E是理論值（期望頻數），即假設兩個變量不相關情況下的期望值。

卡方檢驗的主要步驟：卡方檢驗分四步，檢驗兩個變量是否關聯

計算卡方值
求自由度（行數 - 1）*（列數 - 1）
設定顯著性水平值（顯著性水平是假設檢驗中的一個概念，是指當原假設為正確時人們卻把它拒絕了的概率或風險。它是公認的小概率事件的概率值，必須在每一次統計檢驗之前確定，通常取α=0.05或α=0.01。這表明，當作出接受原假設的決定時，其正確的可能性（概率）為95%或99%。）
根據以上計算結果查表

卡方檢驗作用：主要用於分類變量之間的獨立性檢驗，換言之，就是檢驗兩個分類變量之間有沒有關系，推斷兩個分類變量是否相關或相互獨立。
例如，研究學歷對收入的影響是否顯著性；
男性或者女性對線上買生鮮食品有沒有區別；

卡方檢驗python 實現：

 1 from scipy.stats import chi2_contingency
 2 from scipy.stats import chi2
 3 
 4 table = [[10,20,30],[6,9,17]]
 5 print(table)
 6 stat,p,dof,expected = chi2_contingency(table) # stat卡方統計值，p：P_value，dof 自由度，expected理論頻率分布
 7 print("卡方統計值：",stat)
 8 print('dof=%d'%dof)
 9 print("expected:\n",expected)
10 
11 prob = 0.95 # 選取95%置信度
12 critical = chi2.ppf(prob,dof)  # 計算臨界閥值
13 print('probality=%.3f,critical=%.3f,stat=%.3f '%(prob,critical,stat))
14 if abs(stat)>=critical:
15     print('reject H0:Dependent')
16 else:
17     print('fail to reject H0:Independent')

Python結果：[[10, 20, 30], [6, 9, 17]]
卡方統計值： 0.27157465150403504
dof=2
expected:
 [[10.43478261 18.91304348 30.65217391]
 [ 5.56521739 10.08695652 16.34782609]]
probality=0.950,critical=5.991,stat=0.272 
fail to reject H0:Independent

二、什么是p_value?有什么用？

p-value：拒絕原假設H0時犯錯誤的概率，即其值越小，越說明拒絕原假設H0 接受備擇假設H1是正確的。
直觀來說，就是犯錯概率越低越好。

也可以解釋為，假定“不靠譜”原假設為真時，得到與樣本相同或者比樣本更極端結果的概率。
例如，原假設“人們拇指平均長度是10cm”，根據樣本數據得到p-value是0.03，這意味着如果人們拇指平均長度是10cm，得到樣本或更極端結果的概率是0.03，小於0.05，這時我們就可以認為原假設不可能成立，即拒絕原假設。這里需要注意的是，P值不是給定樣本結果時原假設為真的概率，而是給定原假設為真時樣本結果出現的概率。

作用：p-value就是為了驗證假設和實際之間一致性的統計學意義的值，即假設檢驗

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 卡方分布與卡方檢驗卡方分布卡方分布卡方分布卡方分布and卡方檢驗淺談p值（p-value是什么）淺談p值（p-value是什么）讀寫M1卡小結 beta，or, p value計算zscore 統計 p-value 含義