在對數據的質量進行分析后,接下來就可以對數據的特征進行分析和計算,也可以通過繪制圖表對數據的特征進行展示。數據的特征分析通過有以下幾種方式:分布分析、對比分析、統計量分析、周期性分析、貢獻度分析(帕累托分析)、相關性分析、正態性檢驗。
分布分析能揭示數據的分布特征和分布類型。
- 對於定量數據,想要了解其分布形式是對稱的還是非對稱的,發現某些特大或特小的可以值,可以通過繪制頻率分布直方圖、莖葉圖進行直觀分析;
- 對於定性數據,可用餅圖和條形圖直觀的顯示分布情況。
下面我們通過具體的示例來演示如何對數據 進行定量和定性的分布情況進行分析。下面是需要用到的測試數據。這是數碼相機在1998年整年的銷售訂單數據。下面是前10條數據:
- 對於定量數據分析
對數據進行定量分析,展示其分布情況最常用的方法就是直方圖(Histogram)。這種圖又稱質量分布圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。一般用橫軸表示數據類型,縱軸表示分布情況。
繪制直方圖一般可以按照下面的步驟進行:
- 求極差。針對同一指標,極差越大,數據越不穩定
- 分組數據,並決定分點
- 繪制頻率分布直方表
- 繪制頻率分布直方圖
繪制出的直方圖如下所示。
- 對於定性數據分析
對數據的定性分析常常根據變量的分類類型來分組,展示其分布情況最常用的方法就是餅圖或者條形圖來描述定性變量的分布。例如,餅圖顯示一個數據系列中各項的大小與各項總和的比例。餅圖中的數據點顯示為整個餅圖的百分比。
下面以餅圖舉例說明,只需要將上面直方圖代碼中最后生成的DataFrame(result)直接使用餅圖繪制出,即可。如下所示。
繪制出的餅圖如下所示。