數據特征分析與數據質量分析一道構成數據探索的兩方面工作,在前文中介紹過關於數據質量分析的概況,本文將對數據特征分析作簡介,並着重於分布分析的角度,相比於數據質量分析,數據特征分析更注重於找尋數據間的關系。
數據特征分析包括以下幾個分析角度:
1、分布分析
2、對比分析
3、統計量分析
4、帕累托分析
5、正態性檢驗
6、相關性分析
其上每一個分析角度都有豐富的內容。
分布分析
顧名思義,分布分析研究數據的分布特征和分布類型。對於定量數據,需要了解分布形式,發現某些特大特小的異常值,通常用到散點圖,頻率分布直方圖,莖葉圖等;對於定性數據,可用餅圖或和條形圖顯示分布情況。
1 定量數據
對於定量數據列,可以從以下步驟獲取其分布形式
1 求極差
2 求適當的分組區間
3 計算各組頻率
4 繪制頻率分布直方圖
當然對於python而言,可以使用內置方法直接將輸入的數據轉換為直方圖:
將數據轉為dataframe形式,對其中某一列使用hist()方法,該函數的參數為需要的分組數,可以手動調至合適的分組數。
2 定性數據
對於定性數據,一般可以使用餅圖展示其分布狀況:
注意:輸入上圖中函數的數據是統計頻數后整理好的,如例中一樣,將三個類別的數量統計之后的結果列表作為輸入數據。
3 counter函數
上面提到繪制餅圖的數據是需要頻數統計處理的,那么就需要了解python庫函數counter,可以用它方便地進行頻數統計: