卡方分布的應用
一、總結
一句話總結:
若n個相互獨立的隨機變量ξ₁、ξ₂、……、ξn ,均服從標准正態分布(也稱獨立同分布於標准正態分布),則這n個服從標准正態分布的隨機變量的平方和 就是卡方分布
1、為什么要引用卡方分布?
以特定概率分布為某種情況建模時,事物長期結果較為穩定,能夠清晰進行把握。但是期望與事實存在差異怎么辦?偏差是正常的小幅度波動?還是建模錯誤?
此時,利用卡方分布分析結果,排除可疑結果。【事實與期望不符合情況下使用卡方分布進行檢驗】
二、【程序員眼中的統計學(11)】卡方分布的應用(轉)
轉自:【程序員眼中的統計學(11)】卡方分布的應用 - 伏草惟存 - 博客園
https://www.cnblogs.com/baiboy/p/tjx11.html
摘要:程序員眼中的統計學系列是作者和團隊共同學習筆記的整理。首先提到統計學,很多人認為是經濟學或者數學的專利,與計算機並沒有交集。誠然在傳統學科中,其在以上學科發揮作用很大。然而隨着科學技術的發展和機器智能的普及,統計學在機器智能中的作用越來越重要。本系列統計學的學習基於《深入淺出統計學》一書(偏向代碼實現,需要讀者有一定基礎,可以參見后面PPT學習)。正如(吳軍)先生在《數學之美》一書中闡述的,基於統計和數學模型對機器智能發揮重大的作用。諸如:語音識別、詞性分析、機器翻譯等世界級的難題也是從統計中找到開啟成功之門鑰匙的。尤其是在自然語言處理方面更顯得重要,因此,對統計和數學建模的學習是尤為重要的。最后感謝團隊所有人的參與。( 本文原創,轉載注明出處:卡方分布的應用 )
1 題引和基本知識介紹
1 什么是卡方分布?
若n個相互獨立的隨機變量ξ₁、ξ₂、……、ξn ,均服從標准正態分布(也稱獨立同分布於標准正態分布),則這n個服從標准正態分布的隨機變量的平方和$$Q=\sum_{i=1}^{n}ξ_i^2$$構成一新的隨機變量,其卡方分布規律稱為x^2,分布(chi-square distribution),其中參數n稱為自由度,正如正態分布中均值或方差不同就是另一個$x^2$正態分布一樣,自由度不同就是另一個分布。記為 Q~x^2(k). 卡方分布是由正態分布構造而成的一個新的分布,當自由度n很大時,X^2分布近似為正態分布。 對於任意正整數k, 自由度為 k的卡方分布是一個隨機變量X的機率分布。
2 為什么要引用卡方分布?
以特定概率分布為某種情況建模時,事物長期結果較為穩定,能夠清晰進行把握。但是期望與事實存在差異怎么辦?偏差是正常的小幅度波動?還是建模錯誤?此時,利用卡方分布分析結果,排除可疑結果。【事實與期望不符合情況下使用卡方分布進行檢驗】
3 生活中又怎樣的事例(抽獎機之謎)會出現這種現象呢?
抽獎機,肯定都不陌生,現在一些商場超市門口都有放置。正常情況下出獎概率是一定的,基本商家收益。倘若突然某段時間內總是出獎,甚是反常,那么到底是某階段是小概率事件還是有人進行操作了?抽獎機怎么了?針對這種現象或者類似這種現象問題則可以借助卡方進行檢驗,暫且不着急如何檢驗,還是補充一下基礎知識,再逐步深入解決問題。【常規事件中出現非常規現象,如何檢查問題所在的情況下使用卡方分布】
4 問題描述:抽獎機之謎?
問題一:卡方檢驗擬合優度案例
下面是某台抽獎機的期望分布,其中X代表每局游戲的凈收益(每局獨立事件):
實際中人們收益的頻數為:
在5%的顯著性水平下,看看能否有足夠證據證明判定抽獎機被人動了手腳。
1、算出每個x值的實際頻率與根據概率分布得出的期望頻率進行比較?
2、利用抽獎機的觀察頻率和期望頻率表計算檢驗統計量?
3、要檢驗的原假設是什么?備擇假設是什么?
4、自由度為4且5%水平的拒絕域是多少?
5、檢驗統計量是多少?
6、檢驗統計量是在拒絕域以內還是拒絕域以外?
7、你將接受還是拒絕原假設?
問題二:卡方檢驗獨立性案例
下表顯示各位庄家的觀察頻數,
以1%的顯著性水平進行假設檢驗,看看賭局結果是否獨立於坐庄庄家。
1、你是任務是算出所有期望頻數。
2、根據上面所求期望頻數,計算檢驗統計量X^2.
3、確定要進行檢驗的假設以及備擇假設。
4、求出期望頻率和自由度?
5、確定用於做決策的拒絕域。
6、計算檢驗統計量X^2
7、看看檢驗統計量是否位於拒絕域內。
8、作出決策。
2 卡方檢驗擬合優度(問題一)
問題簡述:抽獎機平常收益者總是商家,突然一段時間總是出獎。本來小概率事件頻發,我們利用卡方的檢驗擬合優度看看能否有足夠證據證明判定抽獎機被人動了手腳
1 知識儲備:期望頻數計算
期望頻數=(觀察頻數之和(1000)) X (每種結果的概率) 如:X=(-2)的期望頻數:977=(0.977)X(1000)
利用卡方假設檢驗觀察頻數和期望頻數之間的差別。
- 1、算出每個x值的實際頻率與根據概率分布得出的期望頻率進行比較?
解答:
2 知識儲備:卡方檢驗評估差異
卡方分布:通過一個檢驗統計量來比較期望結果和實際結果之間的差別,然后得出觀察頻數極值的發生概率。
計算統計量步驟: (期望頻數總和與觀察頻數總和相等)
1、表里填寫相應的觀察頻數和期望頻數
2、利用卡方公式計算檢驗統計量:(O代表觀察期望,E代表期望頻數)
$$ x^2=\sum_{}^{}\frac{(O-E)^2}{E} $$
注釋: 其中x^2表示檢驗統計量,O表示觀察頻數,E代表期望頻數。
即:對於概率分布的每一個概率,取期望頻數和實際頻數的差,求差的平方數,再除以期望頻數,然后將所有結果相加。
檢驗統計量意義:O與E之間差值越小,檢驗統計量越小。以E為除數,令差值與期望頻數成比例。
卡方檢驗的標准:如果統計量值(X^2)很小,說明觀察頻數和期望頻數之間的差別不顯著,統計量越大,差別越顯著。
- 2、利用抽獎機的觀察頻率和期望頻率表計算檢驗統計量?
解答:
3 知識儲備:卡方假設檢驗
卡方分布的用途:檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定數據與指定分布的吻合程度。如:用它檢驗抽獎機收益的觀察頻數與我們所期望的吻合程度。
2、檢驗兩個變量的獨立性:通過這個方法檢查變量之間是否存在某種關系。
自由度V:用於計算檢驗統計量的獨立變量的數目。
1、自由度希臘字母V,讀作“紐”,v影響概率分布
2、當v等於1或者2時:卡方分布先高后低的平滑曲線,檢驗統計量等於較小值的概率遠遠大於較大值的概率,即觀察頻數有可能接近期望頻數。圖形:
3、當v大於2時:卡方分布先低后高再低,其外形沿着正向扭曲,但當v很大時,圖形接近正態分布。圖形:
4、特定參數v(繆)的卡方分布以及檢驗統計量可以記作:
5、v的計算: (如例子:v=5-1)
v=(組數) - (限制數)
顯著性: 卡方分布指出觀察頻數與期望頻數之間差異顯著性,和其他假設一樣,這取決於顯著性水平。
1、顯性水平α進行檢驗,則寫作:(常用的顯著性水平1%和5%)
2、檢測標准:卡方分布檢驗是單尾檢驗且是右尾,右尾被作為拒絕域。於是通過查看檢驗統計量是否位於右尾的拒絕域以內,來判定期望分布得出結果的可能性。
3、卡方概率表的使用:卡方臨界值表是給定可以查詢的
例如: 5%的顯著性水平,8的自由度進行檢驗。查出15.51,因此只要檢驗統計量大於15.51,檢驗統計量就位於拒絕域內。
卡方分布假設檢驗: (總是使用右尾)
步驟:
1、確定要進行檢驗的假設(H0)及其備擇假設H1.
2、求出期望E和自由度V.
3、確定用於做決策的拒絕域(右尾).
4、計算檢驗統計量.
5、查看檢驗統計量是否在拒絕域內.
6、做出決策.
卡方分布檢驗其實就是假設檢驗的特殊形式。
- 3、要檢驗的原假設是什么?備擇假設是什么?
解答:
4 知識儲備:拒絕域求解
例如: 5%的顯著性水平,8的自由度進行檢驗。查出15.51,因此只要檢驗統計量大於15.51,檢驗統計量就位於拒絕域內。
- 4、自由度為4,5%水平的拒絕域是多少?
解答:
5 知識儲備:計算檢驗統計量
前面已經求過。
- 5、檢驗統計量是多少?
解答:
6 知識儲備:檢驗統計量拒絕域內外判定
1、求出檢驗統計量a
2、通過自由度和顯著性水平查到拒絕域臨界值b
3、a>b則位於拒絕域內,反之,位於拒絕域外。
- 6、檢驗統計量是在拒絕域以內還是拒絕域以外?
解答:
7 知識儲備:決策原則
如果位於拒絕域內我們拒絕原假設H0,接受H1。
如果不在拒絕域內我們接受原假設H0,拒絕H1
- 7、你將接受還是拒絕原假設?
解答:
注:只有能得到一組觀察頻數且算出期望頻數,卡方可以檢驗任何概率分布的擬合優度。
揭曉謎底:抽獎機被人動了手腳!!!!!
3 卡方檢驗兩個變量的獨立性(問題二)
【問題簡述】:抽獎機被人動過手腳,經過技術人員處理得以解決,但是現在新問題出現了,因為老板發現負責二十一點賭桌的庄家佩服的錢高於合理值。懷疑庄家是內鬼。究竟賭局結果是否取決於坐庄的庄家,即庄家是否暗箱操作,賭局結果與庄家是否有關?此問題需要卡方分布檢查獨立性破案。
【問題二】下表顯示各位庄家的觀察頻數,
以1%的顯著性水平進行假設檢驗,看看賭局結果是否獨立於坐庄庄家。
1 知識儲備:利用概率求期望頻數
1、獨立性檢驗:用於判斷兩種因素是否相互獨立,或者兩者是否有聯系。
2、期望概率求解步驟:
1、算出賭局結果和庄家頻數以及各項總和,如下表稱為列聯表
2、算出庄家A的贏局期望。
a、求出贏局概率:P(贏)=贏局合計/總和
b、庄家A坐庄概率:P(A)=合計A/總和
c、假設庄家A和賭局結果獨立,其坐庄出現贏局概率:P(A坐庄贏局)=P(贏) X P(A)
c、贏局的期望頻數=總和*P(A坐庄贏局)
即:
3、推廣:期望頻數= 行合計 X 列合計 / 總和
4、求出檢驗統計量:(與前面一樣)
$$x^2=\sum_{}^{}\frac{(O-E)^2}{E}$$
-
1、你是任務是算出所有期望頻數。
解答:
-
2、根據上面所求期望頻數,計算檢驗統計量X^2.
解答:
- 3、確定要進行檢驗的假設以及備擇假設。
解答:
- 4、求出期望頻率和自由度?
解答:
- 5、確定用於做決策的拒絕域。
解答:
-
6、計算檢驗統計量X^2
解答:
-
7、看看檢驗統計量是否位於拒絕域內。
解答:
- 8、作出決策。
解答:
2 自由度計算方法歸納:
列聯表自由度計算,表如下k列,h行
v=(h-1) X (k-1) 注釋:每行計算到最后一個,用總數-其他之后,故一個數限制,同列一列限制。故如上式。
注:
1、在擬合優度檢驗中,v=組數 - 限制數
2、在兩個變量獨立性檢驗中,如列聯表為h行k列則:v=(h-1) X (k-1)
4 本章小結
1 為什么要引用卡方分布?
以特定概率分布為某種情況建模時,事物長期結果較為穩定,能夠清晰進行把握。但是期望與事實存在差異怎么辦?偏差是正常小幅度波動或是在建模錯誤如何判別?此時,利用卡方分布分析結果,排除可疑結果。【事實與期望不符合情況下使用卡方分布進行檢驗】
2 卡方檢驗擬合優度案例
期望計算:
期望頻數=(觀察頻數之和(1000)) X (每種結果的概率) 如:-2:977=(0.977)X(1000)
卡方分布
通過一個檢驗統計量來比較期望結果和實際結果之間的差別,然后得出觀察頻數極值的發生概率。
計算統計量步驟:(期望頻數總和與觀察頻數總和相等)
1、表里填寫相應的觀察頻數和期望頻數
2、利用卡方公式計算檢驗統計量:(O代表觀察期望,E代表期望頻數)
$$x^2=\sum_{}^{}\frac{(O-E)^2}{E}$$
即:對於概率分布的每一個概率,取期望頻數和實際頻數的差,求差的平方數,再除以期望頻數,然后將所有結果相加。
檢驗統計量意義
O與E之間差值越小,檢驗統計量越小。以E為除數,令差值與期望頻數成比例。 卡方檢驗的標准:如果統計量值(X^2)很小,說明觀察頻數和期望頻數之間的差別不顯著,統計量越大,差別越顯著。
卡方分布的用途
檢查實際結果與期望結果之間何時存在顯著差異。
1、檢驗擬合優度:也就是說可以檢驗一組給定數據與指定分布的吻合程度。如:用它檢驗抽獎機收益的觀察頻數與我們所期望的吻合程度。 2、檢驗兩個變量的獨立性:通過這個方法檢查變量之間是否存在某種關系。
自由度V
用於計算檢驗統計量的獨立變量的數目。
1、自由度希臘字母V,讀作“紐”,v影響概率分布
2、當v等於1或者2時:卡方分布先高后低的平滑曲線,檢驗統計量等於較小值的概率遠遠大於較大值的概率,即觀察頻數有可能接近期望頻數。 3、當v大於2時:卡方分布先低后高再低,其外形沿着正向扭曲,但當v很大時,圖形接近正態分布。
4、特定參數v(繆)的卡方分布以及檢驗統計量
5、v的計算: (如例子:v=5-1)
v=(組數) - (限制數)
顯著性
卡方分布指出觀察頻數與期望頻數之間差異顯著性,和其他假設一樣,這取決於顯著性水平。
1、顯性水平α進行檢驗,則寫作:(常用的顯著性水平1%和5%)
2、檢測標准:卡方分布檢驗是單尾檢驗且是右尾,右尾被作為拒絕域。於是通過查看檢驗統計量是否位於右尾的拒絕域以內,來判定期望分布得出結果的可能性。
3、卡方概率表的使用:卡方臨界值表是給定可以查詢的
卡方分布假設檢驗步驟: 總是使用右尾
1、確定要進行檢驗的假設(H0)及其備擇假設H1.
2、求出期望E和自由度V.
3、確定用於做決策的拒絕域(右尾).
4、計算檢驗統計量.
5、查看檢驗統計量是否在拒絕域內.
6、做出決策.
卡方分布檢驗其實就是假設檢驗的特殊形式。
決策原則
如果位於拒絕域內我們拒絕原假設H0,接受H1。 如果不在拒絕域內我們接受原假設H0,拒絕H1
卡方檢驗兩個變量的獨立性(問題二)
獨立性檢驗:
用於判斷兩種因素是否相互獨立,或者兩者是否有聯系。
期望概率求解步驟:
1、算出賭局結果和庄家頻數以及各項總和,如下表稱為列聯表
2、算出庄家A的贏局期望。
a、求出贏局概率:P(贏)=贏局合計/總和
b、庄家A坐庄概率:P(A)=合計A/總和
c、假設庄家A和賭局結果獨立,其坐庄出現贏局概率:P(A坐庄贏局)=P(贏) X P(A)
c、贏局的期望頻數=總和*P(A坐庄贏局)
即:
推廣:
期望頻數= (行合計 X 列合計) / 總和
求出檢驗統計量:(與前面一樣)
$$x^2=\sum_{}^{}\frac{(O-E)^2}{E}$$
自由度計算方法歸納:
列聯表自由度計算,表如下k列,h行
v=(h-1) X (k-1)
注釋:每行計算到最后一個,用總數-其他之后,故一個數限制,同列一列限制。故如上式。
注:
1、在擬合優度檢驗中,v=組數 - 限制數
2、在兩個變量獨立性檢驗中,如列聯表為h行k列則:v=(h-1) X (k-1)
5 內容擴展
統計檢驗量Java代碼實現
/**
* 檢驗統計量計算公式
* x^2=\sum\frac{(O-E)^2}{E}
* 其中x^2表示檢驗統計量,O表示觀察頻數,E代表期望頻數
* @param O int,表示觀察頻數
* @param E int,表示期望頻數
* @return TS=x^2 double型保留兩位小數,檢驗統計量
*/
public static double TestStatistic(double[][] data)
{
int len = data[0].length;
double TS = 0;//檢驗統計量
//循環疊加計算期望值
for (int i = 0; i < len; i++) {
TS += (Math.pow((data[0][i]-data[1][i]),2))/data[1][i];//根據檢驗統計量公式x^2=\sum\frac{(O-E)^2}{E}計算
}
//並將結果保留3位小數
TS=NumFormat.DecFormat(3,TS);
System.out.println("檢驗統計量:"+TS);
return TS;
}
卡方獨立性之期望頻數Java代碼實現
/*
* 卡方獨立性之期望頻數
* 公式:期望頻數=((行合計)*(列合計))/總和
* @param sum1 double,行合計
* @param sum2 double,列合計
* @param sum double,總和
* @return Enum double,期望頻數
*/
public static double ExpFre(double sum1,double sum2,double sum)
{
double Enum=0;
Enum=(sum1*sum2)/sum;
NumFormat.DecFormat(2,Enum);
System.out.println("獨立性期望頻數:Enum="+Enum);
return Enum;
}
計算自由度Java代碼實現
/*
* 計算自由度: 用於計算檢驗統計量的獨立變量的數目。
* 公式:v=(h-1)-(k-1)
* h表示表示表格行,k表示列
* @param h int,組數
* @param k int,限制數:影響計算結果的數目
* @return V int,擬合自由度
*/
public static int NiheFreeNum(int h,int k)
{
int v=0;
v=(h-1)*(k-1);
System.out.println("擬合自由度:V="+v);
return v;
}
卡方的期望和方差
分布的均值為自由度 n,記為 $$ E(X^2) = n$$
分布的方差為2倍的自由度(2n),記為$$ D(x^2) = 2n$$
性質
1)分布在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨着參數 n 的增大,分布趨近於正態分布;卡方分布密度曲線下的面積都是1.
2)分布的均值與方差可以看出,隨着自由度n的增大,χ2分布向正無窮方向延伸(因為均值n越來越大),分布曲線也越來越低闊(因為方差2n越來&越大)。
3)不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。
6 參考文獻
1、卡方分布
2、四個表卡方檢驗
3、卡方檢驗百分比與理論值差異
4、相關樣本卡方檢驗
5、卡方檢驗分類變量是否相關
6、分層卡方檢驗
7、幾種常見的濫(亂)用卡方檢驗的情況
8、智庫百科----卡方檢驗
9、智庫
10、卡方檢驗的SPSS操作