來自:https://mp.weixin.qq.com/s/VgwRuEIyvsC5K8dtgIjDuQ
偏度與峰度的正態性分布判斷
用統計方法對數據進行分析,有很多方法如T檢驗、方差分析、相關分析以及線性回歸等。都要求數據服從正態分布或近似正態分布。上篇博客用Q-Q圖驗證數據集符合正態分布。這篇博客先介紹偏度與峰度定義,然后用偏度與峰度檢測數據集是否符合正態分布,最后分析該檢測算法的使用條件以及spss的結果分析。
1、偏度與峰度
(1)偏度(Skewness)
偏度的衡量是相對於正態分布來說,正態分布的偏度為0,即若數據分布是對稱的,偏度為0。偏度大於0,則分布偏右,即分布有一條長尾在右;偏度小於0,則分布偏左,即分布有一條長尾在左;
同時偏度的絕對值越大,說明分布的偏移程度越嚴重。
注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。
(2)峰度(Kurtosis)
峰度,是研究數據分布陡峭或平滑的統計量,通過對峰度系數的測量,判定數據相對於正態分布而言是平緩還是陡峭。比如正態分布的峰度為0,均勻分布的峰度為-1.2(平緩),指數分布的峰度為6(陡峭)。
峰度≈0,分布服從正態分布;
峰度>0,分布陡峭;
峰度<0,分布平緩;
2、正態性檢驗
計算偏度和峰度的Z評分(Z-score)。
偏度Z-score = 偏度值 ÷偏度值的標准差
峰度Z-score = 峰度值 ÷峰度值的標准差
在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變量范圍,若都滿足則可認為服從正態分布,若一個不滿足則認為不服從正態分布。
3、正態性檢驗的適用條件
樣本的增加會減小偏度值和峰度值的標准差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本數據的正態性情況造成一定的干擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分布性比較合理。
4、 SPSS結果分析
峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特征不符合正態分布。