Evernote Export
分類數據分析與卡方統計量
統計數據的類型有:分類數據、順序數據和數值型數據,分類數據是對事物進行分類的結果,其特征是,結果雖然是用數值顯示,但是不同的數值描述了調查對象的不同特征。
對分類數據進行分析的統計方法主要是利用卡方分布,又稱卡方檢驗。
卡方檢驗的應用主要表現在:
1.擬合優度檢驗--一個變量的檢驗
2.獨立向檢驗(列聯表是進行獨立性檢驗的重要工具)--兩個變量之間的檢驗
卡方統計量:χ2主要用於兩個分類變量之間的相關度。若用f0表示觀察值頻數,用f0表示期望頻數,則χ2統計量可以寫為χ2=∑fe(f0fe)2
統計量有如下特征:
1.χ2≥0,因為它是對平方結果的匯總
2.χ2的分布於自由度有關
3.χ2描述了觀察值與期望值的接近程度
χ2檢驗正是通過對χ2的計算結果與χ2的臨界值進行比較,做出是否拒絕原假設的決策。
擬合優度檢驗
擬合優度檢驗:擬合優度檢驗是用χ2統計量進行統計顯著性檢驗的重要程度之一。它是依據總體分布的狀況,計算出分類變量中的各類別的期望頻數,與分布的觀察頻數進行比較,判斷期望頻數是否有顯著差異,從而達到對分類變量進行分析的目的。
列聯分析:獨立性檢驗
擬合優度檢驗是對一個變量的檢驗,當遇到兩個分類變量的問題看這兩個變量是否存在聯系
對於兩個分類變量的分析,成為獨立性分析
列聯表中的相關測度
相關系數:一般用來描述2X2列聯表,=n
χ2
,n為列聯表中的總頻數,也就是樣本量
列聯相關系數:當行數或列數大於2的時候,使用列聯表關系系數,計算公式c=χ2+nχ2
,當c=0時,兩個變量相互獨立
優點:1.計算簡便,2.對總體分布沒有要求;缺點:最大值依賴於行數,隨着R和C的增大而增大,根據不同行數和列數計算的列聯系數不便於比較,除非兩個列聯表的行數與列數一致
V相關系數:由於系數無上限,c系數小於1,提出V系數,V=nmin[(R1),(C1)]2
,兩個變量相互獨立時,V=0,兩個變量完全相關時,V=1,V的取值介入0~1之間
數值分析
前面利用卡方分布對兩個分類變量之間的相關性進行了統計檢驗
列聯分析中應注意的問題