在數據探索工作中,作為數據特征分析的角度,對比分析、統計量分析同樣是發掘數據間關系與數據特征的重要渠道。
1 對比分析
對比分析是指把兩個相互聯系的指標進行比較,從數量上展示和說明研究對象規模的大小,水平的高低,速度的快慢等,主要強調各角度的“比較”。
對比分析主要有以下兩種形式:
1)絕對數比較
適合指標在量級上不能差別過大,常用折線圖、柱狀圖。
2)相對數比較
包括結構分析、比例分析、空間比較分析、動態對比分析等,例如:
結構相對數:將同一總體內的部分數值與全部數值對比求得比重,用以說明事物的性質、結構或質量。如居民食品支出額占消費支出總額比重、產品合格率等。
比例相對數:將同一總體內不同部分的數值進行對比,表明總體內各部分的比例關系。如人口性別比例、投資與消費比例等。
比較相對數:將同一時期兩個性質相同的指標數值進行對比,說明同類現象在不同條件下的數量對比關系。如不同行業、不同企業間某項指標對比等。
動態相對數:將同一現象在不同時期的指標數值進行對比,用以說明發展發向和變化的速度。如發展速度、增長速度。
由於數據的對比所涉范圍極其寬廣,各種可能的對比角度均可執行,所以從哪個方面進行對比還得依賴實際問題與關注點,本文不再示例。
2 統計量分析
統計量分析用於檢查數據特征,把握數據整體的性質,包括檢查數據的集中程度、離散程度和分布形狀,通過這些統計量可以從整體上把握數據的重要性質。
2.1 集中趨勢
常用指標有均值、中位數、眾數等。
2.2 離中趨勢
常用指標有標准差、四分位間距、極差、變異系數等。
python中已內置了描述上述統計量的方法:

2.3 分布形狀
分布形狀使用偏度系數和峰度系數來度量,
偏度系數是用於衡量數據分布對稱性的統計量,反映數據分布偏移中心位置的程度。正態分布的偏度為0;偏度<0稱分布具有負偏離(左偏態),此時數據位於均值左邊的比右邊的多,有個尾巴拖到左邊,說明左邊有極端值;偏度>0稱分布具有正偏離(右偏態);偏度接近於0 ,認為分布對稱。例如:分布有可能在偏度上偏離正態分布,則可用偏度來檢驗分布的正態性。偏度的絕對值數值越大表示其分布形態的偏斜程度越大。
峰度系數是用於衡量數據分布陡峭或平滑的統計量,判定數據分布相對於正態分布而言是更陡峭還是平緩。例如:正態分布的峰度系數值是3;K>3的峰度系數說明觀察量更集中,有比正態分布更短的尾部;K<3的峰度系數說明觀測量不那么集中,有比正態分布更長的尾部。
關於偏度與峰度的進一步闡釋可以參考這篇博客:https://blog.csdn.net/u012735708/article/details/84750295
