機器學習之數據探索——數據特征分析(分布分析)


數據特征分析與數據質量分析一道構成數據探索的兩方面工作,在前文中介紹過關於數據質量分析的概況,本文將對數據特征分析作簡介,並着重於分布分析的角度,相比於數據質量分析,數據特征分析更注重於找尋數據間的關系。

數據特征分析包括以下幾個分析角度:
1、分布分析
2、對比分析
3、統計量分析
4、帕累托分析
5、正態性檢驗
6、相關性分析
其上每一個分析角度都有豐富的內容。

分布分析

顧名思義,分布分析研究數據的分布特征和分布類型。對於定量數據,需要了解分布形式,發現某些特大特小的異常值,通常用到散點圖,頻率分布直方圖,莖葉圖等;對於定性數據,可用餅圖或和條形圖顯示分布情況。

1 定量數據

對於定量數據列,可以從以下步驟獲取其分布形式
1 求極差
2 求適當的分組區間
3 計算各組頻率
4 繪制頻率分布直方圖

當然對於python而言,可以使用內置方法直接將輸入的數據轉換為直方圖:
將數據轉為dataframe形式,對其中某一列使用hist()方法,該函數的參數為需要的分組數,可以手動調至合適的分組數。

2 定性數據

對於定性數據,一般可以使用餅圖展示其分布狀況:

注意:輸入上圖中函數的數據是統計頻數后整理好的,如例中一樣,將三個類別的數量統計之后的結果列表作為輸入數據。

3 counter函數

上面提到繪制餅圖的數據是需要頻數統計處理的,那么就需要了解python庫函數counter,可以用它方便地進行頻數統計:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM