分類數據分析

本文轉載自查看原文 2020-09-11 15:29 428

我們知道統計數據的類型分為分類數據和數值型數據，那對於分類數據而言，如果我想對其進行統計分析主要涉及哪些方面呢？

內容目錄

分類數據的描述統計
分類數據的推斷統計

1 分類數據的描述統計

分類數據的基本描述方式

頻數列表
百分比
累計頻數
累計百分比
眾數

舉個例子

以下是某個班級的小組人員數，班級總共83人，從百分比（構成比），我們可以得知每個小組人數的占比情況。

這里簡單了解就可以了

2 分類數據的推斷統計

對於分類數據而言，我們如果想檢驗變量之間是否存在某種關系，那這個就要用到 $x^{2}$ 檢驗了

什么是卡方檢驗呢

對分類數據的頻數進行分析的統計方法

例如：泰坦尼克號遇難的事件中，我們可以把上船人數分為男女兩個類別，如圖

我們可以把獲救人數看作頻數

我們對於數值型數據還可以轉換成分類數據，例如，可以把成績按照不同水平分為不同的級別

每個級別的人數就是頻數

如何對分類數據的結果進行卡方檢驗？

我們需要通過卡方統計量來實現，先來看卡方統計量的定義

若用 $f_{0}$ 表示觀察值頻數，用 $f_{e}$ 表示期望頻數，則 $x^{2}$ 統計量可以寫成：

$x^{2} =\sum{\frac{(f_{0}-f_{e})^{2}}{f_{e}}}$

舉個實例來解釋定義

現在我們想分析一下性別對於是否獲救有沒有關系呢？也就是不同的性別對於是否能夠存活有無影響呢？

這就需要用到擬合優度檢驗

擬合優度檢驗是針對只有一個分類變量的檢驗

擬合優度檢驗是用 $x^{2}$ 統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分布情況，計算出分類變量中各類別的期望頻數，與分布的觀察頻數進行對比，判斷期望頻數與觀察頻數是否有顯著性差異，從而達到對分類變量進行分析的目的。

我們還拿剛才的例子，假設以 $\alpha$ = 0.1的顯著性水平檢驗存活狀況與性別是否有關

解：本例中需要判斷觀察頻數與期望頻數是否一致

$H_{0}$ ：觀察頻數與期望頻數一致

$H_{1}$ ：觀察頻數與期望頻數不一致

計算過程如下：

自由度的計算公式為R-1，R為分類變量的個數，這里分為男女兩類，因此自由度 = 1

通過查卡方分布表可得 $x_{0.1}^{2}$ (1) = 2.706

因此計算結果303.2遠大於2.706，所以拒絕原假設，說明性別對於是否存活有顯著影響。

那對於一個分類變量的檢驗使用的是擬合優度檢驗，對於兩個分類變量呢，例如分析對於原料而言，不同地區與不同等級這兩個變量之間是否有關聯呢？

獨立性檢驗

首先，這種形式叫做列聯表，對其進行檢驗叫獨立性檢驗，是由兩個以上的變量進行交叉分類的頻數分布表

我們拿原料的生產地區與等級這兩個變量進行分析

一種原料來自三個不同的地區，原料質量被分成三個不同的等級。從這批原料中隨機抽取500件進行檢驗，結果如下圖，要求檢驗各個地區和原料質量之間是否存在依賴關系（ $\alpha$ =0.05）

$H_{0}$ ：地區與原料等級之間是獨立的（不存在依賴關系）

$H_{1}$ ：地區與原料等級之間不獨立（存在依賴關系）

1.計算交叉表的期望比率

=B$31*$F27

注：每個地區的總占比跟每個等級的總占比相乘，得出3X3個結果，如上圖

2.期望比率*500得出每個期望頻數

=B$31*$F27*500

3.根據樣本統計量公式計算結果

$x^{2}$ 的自由度 = （R-1）（C-1）= 2*2 = 4

自由度是兩個變量分別對應的個數減1

假設 $\alpha$ = 0.05 查卡方分布表可得 $x_{0.05}^{2}$ = 9.4877

由於卡方統計量遠大於9.4877，所以拒絕原假設，說明材料質量與地區有關聯關系。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據分析-分類分析數據分析常用分類算法數據分析為什么要數據分析？數據分析數據分析數據分析的層級數據分析之 NumPy 我所理解的數據分析數據分析——pyecharts