我們知道統計數據的類型分為分類數據和數值型數據,那對於分類數據而言,如果我想對其進行統計分析主要涉及哪些方面呢?
內容目錄
- 分類數據的描述統計
- 分類數據的推斷統計
1 分類數據的描述統計
分類數據的基本描述方式
- 頻數列表
- 百分比
- 累計頻數
- 累計百分比
- 眾數
舉個例子
以下是某個班級的小組人員數,班級總共83人,從百分比(構成比),我們可以得知每個小組人數的占比情況。
這里簡單了解就可以了
2 分類數據的推斷統計
對於分類數據而言,我們如果想檢驗變量之間是否存在某種關系,那這個就要用到 檢驗了
什么是卡方檢驗呢
對分類數據的頻數進行分析的統計方法
例如:泰坦尼克號遇難的事件中,我們可以把上船人數分為男女兩個類別,如圖
我們可以把獲救人數看作頻數
我們對於數值型數據還可以轉換成分類數據,例如,可以把成績按照不同水平分為不同的級別
每個級別的人數就是頻數
如何對分類數據的結果進行卡方檢驗?
我們需要通過卡方統計量來實現,先來看卡方統計量的定義
若用 表示觀察值頻數,用
表示期望頻數,則
統計量可以寫成:
舉個實例來解釋定義
現在我們想分析一下性別對於是否獲救有沒有關系呢?也就是不同的性別對於是否能夠存活有無影響呢?
這就需要用到擬合優度檢驗
擬合優度檢驗是針對只有一個分類變量的檢驗
擬合優度檢驗是用 統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分布情況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著性差異,從而達到對分類變量進行分析的目的。
我們還拿剛才的例子,假設以 = 0.1的顯著性水平檢驗存活狀況與性別是否有關
解:本例中需要判斷觀察頻數與期望頻數是否一致
:觀察頻數與期望頻數一致
:觀察頻數與期望頻數不一致
計算過程如下:
自由度的計算公式為R-1,R為分類變量的個數,這里分為男女兩類,因此自由度 = 1
通過查卡方分布表可得 (1) = 2.706
因此計算結果303.2遠大於2.706,所以拒絕原假設,說明性別對於是否存活有顯著影響。
那對於一個分類變量的檢驗使用的是擬合優度檢驗,對於兩個分類變量呢,例如分析對於原料而言,不同地區與不同等級這兩個變量之間是否有關聯呢?
獨立性檢驗
首先,這種形式叫做列聯表,對其進行檢驗叫獨立性檢驗,是由兩個以上的變量進行交叉分類的頻數分布表
我們拿原料的生產地區與等級這兩個變量進行分析
一種原料來自三個不同的地區,原料質量被分成三個不同的等級。從這批原料中隨機抽取500件進行檢驗,結果如下圖,要求檢驗各個地區和原料質量之間是否存在依賴關系(=0.05)
:地區與原料等級之間是獨立的(不存在依賴關系)
:地區與原料等級之間不獨立(存在依賴關系)
1.計算交叉表的期望比率
=B$31*$F27
注:每個地區的總占比跟每個等級的總占比相乘,得出3X3個結果,如上圖
2.期望比率*500得出每個期望頻數
=B$31*$F27*500
3.根據樣本統計量公式計算結果
的自由度 = (R-1)(C-1)= 2*2 = 4
自由度是兩個變量分別對應的個數減1
假設 = 0.05 查卡方分布表可得
= 9.4877
由於卡方統計量遠大於9.4877,所以拒絕原假設,說明材料質量與地區有關聯關系。