分類數據分析


我們知道統計數據的類型分為分類數據和數值型數據,那對於分類數據而言,如果我想對其進行統計分析主要涉及哪些方面呢?

內容目錄

  • 分類數據的描述統計
  • 分類數據的推斷統計

1 分類數據的描述統計

分類數據的基本描述方式

  • 頻數列表
  • 百分比
  • 累計頻數
  • 累計百分比
  • 眾數

舉個例子

以下是某個班級的小組人員數,班級總共83人,從百分比(構成比),我們可以得知每個小組人數的占比情況。

這里簡單了解就可以了

2 分類數據的推斷統計

對於分類數據而言,我們如果想檢驗變量之間是否存在某種關系,那這個就要用到[公式] 檢驗了

什么是卡方檢驗呢

對分類數據的頻數進行分析的統計方法

例如:泰坦尼克號遇難的事件中,我們可以把上船人數分為男女兩個類別,如圖

我們可以把獲救人數看作頻數

我們對於數值型數據還可以轉換成分類數據,例如,可以把成績按照不同水平分為不同的級別

每個級別的人數就是頻數

如何對分類數據的結果進行卡方檢驗?

我們需要通過卡方統計量來實現,先來看卡方統計量的定義

若用 [公式] 表示觀察值頻數,用 [公式] 表示期望頻數,則 [公式] 統計量可以寫成:

[公式]

舉個實例來解釋定義

現在我們想分析一下性別對於是否獲救有沒有關系呢?也就是不同的性別對於是否能夠存活有無影響呢?

這就需要用到擬合優度檢驗

擬合優度檢驗是針對只有一個分類變量的檢驗

擬合優度檢驗是用 [公式] 統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分布情況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著性差異,從而達到對分類變量進行分析的目的。

我們還拿剛才的例子,假設以 [公式] = 0.1的顯著性水平檢驗存活狀況與性別是否有關

解:本例中需要判斷觀察頻數與期望頻數是否一致

[公式] :觀察頻數與期望頻數一致

[公式] :觀察頻數與期望頻數不一致

計算過程如下:

自由度的計算公式為R-1,R為分類變量的個數,這里分為男女兩類,因此自由度 = 1

通過查卡方分布表可得 [公式] (1) = 2.706

因此計算結果303.2遠大於2.706,所以拒絕原假設,說明性別對於是否存活有顯著影響。

那對於一個分類變量的檢驗使用的是擬合優度檢驗,對於兩個分類變量呢,例如分析對於原料而言,不同地區與不同等級這兩個變量之間是否有關聯呢?

獨立性檢驗

首先,這種形式叫做列聯表,對其進行檢驗叫獨立性檢驗,是由兩個以上的變量進行交叉分類的頻數分布表

我們拿原料的生產地區與等級這兩個變量進行分析

一種原料來自三個不同的地區,原料質量被分成三個不同的等級。從這批原料中隨機抽取500件進行檢驗,結果如下圖,要求檢驗各個地區和原料質量之間是否存在依賴關系(  [公式] =0.05)

[公式] :地區與原料等級之間是獨立的(不存在依賴關系)

[公式] :地區與原料等級之間不獨立(存在依賴關系)

1.計算交叉表的期望比率

=B$31*$F27

注:每個地區的總占比跟每個等級的總占比相乘,得出3X3個結果,如上圖

2.期望比率*500得出每個期望頻數

=B$31*$F27*500

3.根據樣本統計量公式計算結果

[公式] 的自由度 = (R-1)(C-1)= 2*2 = 4

自由度是兩個變量分別對應的個數減1

假設 [公式] = 0.05 查卡方分布表可得 [公式] = 9.4877

由於卡方統計量遠大於9.4877,所以拒絕原假設,說明材料質量與地區有關聯關系。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM