數據的偏度和峰度


我們一般會拿偏度和峰度來看數據的分布形態,而且一般會跟正態分布做比較,我們把正態分布的偏度和峰度都看做零。如果我們在實操中,算到偏度峰度不為0,即表明變量存在左偏右偏,或者是高頂平頂這么一說。

偏度

偏度是數據的不對稱程度。無論偏度值是 0、正數還是負數,都顯示有關數據分布形狀的信息。
圖 A
    
 圖 B 
對稱或非偏斜分布

當數據變得更加對稱時,它的偏度值會更接近零。圖 A 顯示正態分布的數據,顧名思義,正態分布數據的偏度相對較小。通過沿這一正態數據直方圖的中間繪制一條線,可以很容易地看到兩側互相構成鏡像。但是,沒有偏度並不表示具有正態性。在圖 B 顯示的分布中,兩側依然互相構成鏡像,但這些數據完全不是正態分布。

正偏斜或向右偏斜分布

正偏斜或右偏斜的數據之所以這樣命名,是因為分布的“尾部”指向右側(如上圖所示),而且它的偏度值大於 0(或為正數)。薪金數據通常按這種方式偏斜:一家公司中許多員工的薪金相對較低,而少數人員的薪金則非常高。

 

 

負偏斜或向左偏斜分布

左偏斜或負偏斜的數據之所以這樣命名,是因為分布的“尾部”指向左側(如上圖所示),而且它產生負數偏度值。故障率數據通常就是左偏斜的。以燈泡為例:極少數燈泡會立即就燒壞,但大部分燈泡都會持續相當長的時間。

峰度

峰度表示分布的尾部與正態分布的區別。使用峰度可幫助您初步了解有關數據分布的一般特征。


完全服從正態分布的數據的峰度值為 0。正態分布的數據為峰度建立了基准。如果樣本的峰度值顯著偏離 0,則表明數據不服從正態分布。 

正峰度

具有正峰度值的分布表明,相比於正態分布,該分布有更重的尾部(更加尖銳,如上圖虛線所示)。例如,服從 t 分布的數據具有正峰度值。實線表示正態分布,虛線表示具有正峰度值的分布。

 

負峰度

具有負峰度值的分布表明,相比於正態分布,該分布有更輕的尾部(更加平滑,如上圖虛線所示)。例如,服從 Beta 分布(第一個和第二個分布形狀參數等於 2)的數據具有負峰度值。實線表示正態分布,虛線表示具有負峰度值的分布。

 
在padas里面,df.skew()用來計算偏度、df.kurt()用來計算峰度。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM