對數據進行質量分析以后,接下來可通過繪制圖表、計算某些特征量等手段進行數據的特征分析。
主要通過分布分析、對比分析、統計量分析、周期性分析、貢獻度分析、相關性分析等角度進行展開。
2.1 分布分析
分布分析能揭示數據的分布特征和分布類型。對於定性數據,可用餅形圖和條形圖直觀的現實分布情況。
1.定量數據的分布分析
對於定量變量而言,選擇“組數”和“組寬”是做頻率分布分析時最主要的問題,一般按照以下步驟進行。
1)求極差。
2)決定組距與組數。
3)決定分點。
4)列出頻率分布表。
5)繪制頻率分布直方圖。
遵循的主要原則如下。
1)各組之間必須是相互排斥的。
2)各組必須將所有的數據包含在內。
3)各組的組寬最好相等。
對於定性變量,常常根據變量的分類類型來分組,可以采用餅形圖和條形圖來描述定性變量的分布。
2.2 對比分析
對比分析是指把兩個相互聯系的指標進行比較,從數據量上展開和說明研究對象規模的大小,水平的高低,速度的快慢。在對比分析中,選擇合適的對比標准是十分關鍵的步驟。
1)絕對數比較
它是利用絕對數進行對比,從而尋找差異的一種方法
2)相對數比較
它是由兩個相聯系的指標對比計算的,用以反映客觀現象之間的數量聯系程度的綜合指標,其數值為相對數。
相對數可以分為以下幾種
1)結構相對數
2)比例相對數
3)比較相對數
4)強度相對數
5)動態相對數
2.3 統計量分析
用統計指標對定量數據進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。
1. 集中趨勢度量
集中趨勢度量有以下幾個方面。
1)均值
2)中位數
3)眾數
2. 離中趨勢度量
離中趨勢度量主要包括如下幾個方面。
1)極差
2)標准差
3)變異系數
4)四分位數間距
2.4 周期性分析
周期性分析是探索某個變量是否隨着時間變化而呈現出某種周期變化趨勢。時間尺度相對較長的周期性趨勢有年度周期性趨勢、季節性周期性趨勢,相對較短的有月度周期性趨勢、周度周期性趨勢,甚至更短的天、小時周期性趨勢。
2.5 貢獻度分析
貢獻度分析又稱帕累托分析,它的原理是帕累托法則又稱2/8定律。
即累積效應達80%的前幾個因素.
2.6 相關性分析
分析連續變量之間線性相關程度的強弱,並用適當的統計指標表示出來的過程稱為相關分析。
參考來源於:R語言數據分析與挖掘實戰_張良均,雲偉標,王路著_北京:機械工業出版社
https://kknews.cc/tech/89xlq8l.html