描述性統計分析的常用指標有平均數、方差、中位數、眾數、標准差等,
提供分析對象數據的集中程度和離散程度等信息。 我們可以通過相關統計函數如:
求和、平均值、最大(小)值、中位數、眾數等來描述它的數據特點。
實驗1:以某公司“用戶消費數據”為例,利用用戶消費金額這個變量來描述
用戶消費行為特征,分析了解用戶消費分布。
實驗步驟: 【數據】-【分析】-【數據分析】-【描述統計】
----------------------------------------------------------------
輸入:
(1)輸入區域
(2)分組方式:選擇分組方式,如果需要指出【輸入區域】
中的數據是按行還是按列排列。這里選擇[逐列]。
(3)標志位於第一行,若數據源區域第一行含有標志位,則應勾選。
否則,EXCEL字段將以"列1、列2、列3、...."作為標志。
-----------------------------------------------------------
輸出:
(1)輸出區域
(2)匯總統計:包含平均值、標准誤差、中位數、眾數、標准差、
方差、峰度、偏度、區域、最小值、最大值、求和等。
(3)平均置信度:是指總體參數值落在樣本統計值某一區內的概率,常用的置信度為95%或90%。
(4)第K大(小)值:表示輸入數據組的第幾位最大(小)值。

圖2-2 描述性統計結果示例
通過以上分析,我們可以得知用戶的消費能力,例如這些用戶平均消費金額為5098元,
用戶的最高消費金額達到8886元,最低消費金額僅為1044元。
(1)表現數據集中趨勢的指標:平均數、中位數、眾數。
(2)描述數據離散程度的指標:方差和標准差,他們反映的是與平均值之間的離散程度。
(3)呈現數據分布形狀指標:偏度系數與峰度系數。 峰度系數是描述對稱分布曲線峰
頂尖峭程度的指標。有尖峭峰分布、平闊峰分布,是 相對於正態分布而言的。
峰度系數>0,
兩側極端數據較少,比正態分布更高更瘦,呈尖峭峰分布;
峰度系數<0,兩側極端值較多,
比正態分布更矮更胖,呈平闊峰分布;
偏度系數是以正態分布為標准來描述數據對稱性的指標。
偏度系數=0,分布對稱;
偏度系數<0,頻數分布的高峰向左偏移,
長尾向右延伸,則稱為正偏態分布;
偏度系數>0,頻數分布的高峰向右偏移,長尾向左延伸,則稱為負偏態分布;
偏態系數>1或者<-1,高度偏態分布;
偏態系數在0.5~1或-0.5~-1,中等偏態分布。
偏度系數越接近0,偏斜程度越低。
通過分析可知道,用戶消費金額的峰度系數<0且偏度系數<0,所以用戶消費數據呈現為平闊峰式正偏態分布。