分類數據
分類數據是對事物進行分類的結果,它雖然是用數值表示,但是數值僅僅反映對象的不同特征,其大小沒有意義。分類數據的結果是頻數,對其進行統計分析主要利用$\chi^2$分布。
$\chi^2$統計量
$\chi^2$統計量可用於測定2個分類變量之間的相關程度。用$f_o$表示觀察值頻數,$f_e$表示期望值頻數,則
$$\chi^2=\sum \frac{(f_o-f_e)^2}{f_e}$$
利用$\chi^2$統計量,可以對分類數據進行擬合優度檢驗和獨立性檢驗。
擬合優度檢驗
擬合優度檢驗(goodness of fit test):
依據總體分布,計算出各類別的期望頻數,與觀察頻數進行對比,判斷兩者是否有顯著差異,從而對分類變量進行分析。
原假設和備擇假設
$H_0$:觀察頻數與期望頻數一致
$H_1$:觀察頻數與期望頻數不一致
檢驗統計量
$$\chi^2=\sum \frac{(f_o-f_e)^2}{f_e}$$
自由度為$df=R-1$,R為分類變量的類型的個數。
在假設檢驗中,我們在二項分布總體、大樣本情況下,對總體比例采用z檢驗:
$$z=\frac{p-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}$$
對於總體比例,同樣可以使用擬合優度檢驗(比例可視為2個類別的分類變量)。z檢驗只能針對二項分布問題,而$\chi^2$檢驗既可以分析二項分布,也可以分析多項分布(對總體的多個比例的假設進行檢驗)。
列聯分析:獨立性檢驗
擬合優度檢驗是針對一個分類變量的檢驗,對於兩個分類變量,我們會關心它們是否有關聯,稱為獨立性檢驗,通過列聯表的方式呈現。
列聯表
列聯表是由2個以上的變量交叉分類的頻數分布表。將行變量視為R(3類),列變量視為C(3類),可以把每一個列聯表稱為R×C列聯表。下表為3×3列聯表:
獨立性檢驗
分析列聯表中行變量和列變量是否獨立。
原假設和備擇假設
$H_0$:不存在依賴關系
$H_1$:存在依賴關系
計算個單元期望頻數值
$$f_e=\frac{RT}{n}\times \frac{CT}{n} \times n=\frac{RT \times CT}{n}$$
其中$f_e$是給定單元中的期望頻數,$RT$是單元所在行的合計,$CT$是單元所在列的合計,$n$是樣本量。
自由度為$df=(R-1)(C-1)$。
由於$\chi^2>\chi^2_{0.05}(4)=9.488$,故拒絕$H_0$,接受$H_1$,地區與等級之間存在依賴關系。
列聯表中的相關性測量:品質數據的相關系數
$\chi^2$分布可以檢驗兩個分類變量的獨立性,如果它們不獨立,則相關程度有多大?相關系數表示兩個變量之間的相關程度,列聯表中的變量是分類變量,它們之間的相關叫做品質相關。常用的品質相關系數有$\varphi $系數、$c$系數、$V$系數。
$\varphi $相關系數
描述2×2列聯表數據相關程度,計算公式為
$$\varphi =\sqrt{\frac{\chi^2}{n}}$$
每個單元的期望頻數為:
$$e_{11}=\frac{(a+b)(a+c)}{n}$$
$$e_{21}=\frac{(a+c)(c+d)}{n}$$
$$e_{12}=\frac{(a+b)(b+d)}{n}$$
$$e_{22}=\frac{(b+d)(c+d)}{n}$$
$\chi^2$值為:
$$\chi^2=\frac{a-e_{11}}{e_{11}}+\frac{b-e_{12}}{e_{12}}+\frac{c-e_{21}}{e_{21}}+\frac{d-e_{22}}{e_{22}}=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$$
則
$$\varphi =\sqrt{\frac{\chi^2}{n}}=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$
當ad=bc時,$\varphi$=0,2個變量獨立;
當b=0,c=0時,$\varphi$=1,2個變量完全相關;
當a=0,d=0時,$\varphi$=-1,2個變量完全相關;
因此,對於2×2列聯表,$\varphi $系數的取值在0~1之間,絕對值越大,相關程度越高。
對於R或C大於2的列聯表,$\varphi $值無上限。
列聯相關系數
又稱c系數,主要用於大於2×2列聯表的情況,計算公式為:
$$c=\sqrt{\frac{\chi^2}{\chi^2+n}}$$
當2個變量相互獨立時,c=0;其最大值小於1,且隨着R和C的增大而增大。它對總體的分布沒有任何要求,但只有2個列聯表的行數列數一致時,用c系數進行比較才有意義。
V相關系數
$$V=\sqrt{\frac{\chi^2}{n\times min[(R-1),(C-1)]}}$$
當兩個變量相互獨立時,V=0;
當兩個變量完全相關時,V=1。
列聯分析中應注意的問題
條件百分表的方向
一般把$X$(自變量)作為列向量,把$Y$(因變量)作為行向量,便於更好地表現原因對於結果的影響。
$\chi^2$分布的期望值准則
用$\chi^2$分布進行獨立性檢驗,要求樣本量必須足夠大。關於每個單元的頻數,有2條准則:
1. 如果只有2個單元,則每個單元的期望頻數$f_e$必須大於或等於5;
2. 如果有2個以上單元,則要求20%的單元期望頻數$f_e$大於或等於5。
期望頻數$f_e$過小,$\frac{(f_o-f_e)^2}{f_e}$會不適當地增大,造成對$\chi^2$的高估,導致不適當地拒絕$H_0$。將較小的$f_e$合並,可得到合理的結論。