一、何為數據的偏態分布?
頻數分布有正態分布和偏態分布之分。正態分布是指多數頻數集中在中央位置,兩端的頻數分布大致對稱。
偏態分布是指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值小的一側,稱為正偏態分布;集中位置偏向數值大的一側,稱為負偏態分布。
如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏態分布,也稱右偏態分布;同樣的,如果頻數分布的高峰向右偏移,長尾向左延伸則成為負偏態分布,也稱左偏態分布。
峰左移,右偏,正偏
峰右移,左偏,負偏
性質:
1、當總體分布呈對稱狀態時,中位數=平均數
2、當總體分布呈右偏態狀態時,說明存在極大值,會把平均值向極大值方向拉,中位數<平均數
3、當總體分布呈左偏態狀態時,說明存在極小值,會把平均值向極小值方向拉,中位數>平均數
偏態分布只有滿足一定的條件(如樣本例數夠大等)才可以看做近似正態分布。
與正態分布相對而言,偏態分布有兩個特點:
一是左右不對稱(即所謂偏態);
二是當樣本增大時,其均數趨向正態分布。
二、構建模型時為什么要盡量將偏態數據轉換為正態分布數據?
數據整體服從正態分布,那樣本均值和方差則相互獨立。正態分布具有很多好的性質,很多模型假設數據服從正態分布。例如線性回歸(linear regression),它假設誤差服從正態分布,從而每個樣本點出現的概率就可以表示成正態分布的形式,將多個樣本點連乘再取對數,就是所有訓練集樣本出現的條件概率,最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達式的形式就是我們熟悉的誤差平方和。總之, ML中很多model都假設數據或參數服從正態分布。