EDA(探索性數據分析)最常用的過程步之一就是PROC UNIVARIATE。
首先先看一個最簡單的PROC UNIVARIATE程序:
PROC UNIVARIATE DATA=SASHELP.FISH; WHERE SPECIES='Bream'; VAR HEIGHT; RUN;
上述代碼得到的結果有:矩、位置和可變形的基本測度、位置檢驗、分位數、極值觀測。具體如下:
解讀:首先看第一張表——矩,其中N=35代表該進入分析變量有35條觀測,偏度約0.2稍微有點負偏態(右偏),變異系數12(不大也不小,無法得出結論),峰度系數-0.6(低峰后尾);
第二張表:位置和變異性的基本測度,其中位置的統計量有均值(15.1),中位數(14.9)還是比較接近,所以近似對稱分布。變異性即數據的差異性程度(標准差越大差異越大。)
PROC UNIVARIATE DATA=SASHELP.FISH; WHERE SPECIES='Bream'; VAR HEIGHT; HISTOGRAM ; RUN;
若加了一個HISTOGRAM則增加了一個直方圖,如下:
如加一個NORMAL選項則在直方圖上面加了一根擬合后的正態分布圖,並且還增加了擬合正太分布的參數估計、擬合優度、分位數,這里的括號中的意思可理解為均值(MU)和標准差(SIGMA)的值為原始數據本身的均值和標准差;
PROC UNIVARIATE DATA=SASHELP.FISH; WHERE SPECIES='Bream'; VAR HEIGHT; HISTOGRAM /NORMAL(MU=EST SIGMA=EST); RUN;
PROC UNIVARIATE DATA=SASHELP.FISH; WHERE SPECIES='Bream'; VAR HEIGHT; HISTOGRAM /NORMAL(MU=EST SIGMA=EST) KERNEL; RUN;
加了一個KERNEL則在直方圖中加了一根實際數據核分布的密度曲線,如下圖:
PROC UNIVARIATE DATA=SASHELP.FISH PLOT; WHERE SPECIES='Bream'; VAR HEIGHT; HISTOGRAM /NORMAL(MU=EST SIGMA=EST) KERNEL; RUN;
上述加了一個plot選項,在結果中增加了分析變量數據的分布圖、盒形圖、以及概率圖,如下:
由概率圖看出,散點分布的直線上下,還算是比較重合,所以該數據近似服從正態分布的。
暫時就會這么多了。。以后再補。