數據的偏態分布


一、何為數據的偏態分布?

 

頻數分布有正態分布和偏態分布之分。正態分布是指多數頻數集中在中央位置,兩端的頻數分布大致對稱。

 

偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布;集中位置偏向數值大的一側,稱為負偏態分布

 

如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布;同樣的,如果頻數分布的高峰向右偏移,長尾向左延伸則成為負偏態分布,也稱左偏態分布

 

峰左移,右偏,正偏

 

峰右移,左偏,負偏

 

skewed_distribution_demo

 性質:

1、當總體分布呈對稱狀態時,中位數=平均數

2、當總體分布呈右偏態狀態時,說明存在極大值,會把平均值向極大值方向拉,中位數<平均數

3、當總體分布呈左偏態狀態時,說明存在極小值,會把平均值向極小值方向拉,中位數>平均數

 

偏態分布只有滿足一定的條件(如樣本例數夠大等)才可以看做近似正態分布。

 

與正態分布相對而言,偏態分布有兩個特點

 

  一是左右不對稱(即所謂偏態);

 

  二是當樣本增大時,其均數趨向正態分布。

 

二、構建模型時為什么要盡量將偏態數據轉換為正態分布數據?

  數據整體服從正態分布,那樣本均值和方差則相互獨立。正態分布具有很多好的性質,很多模型假設數據服從正態分布。例如線性回歸(linear regression),它假設誤差服從正態分布,從而每個樣本點出現的概率就可以表示成正態分布的形式,將多個樣本點連乘再取對數,就是所有訓練集樣本出現的條件概率,最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達式的形式就是我們熟悉的誤差平方和。總之, ML中很多model都假設數據或參數服從正態分布

       

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM