數據的偏態分布

本文轉載自查看原文 2017-05-03 17:28 6990 數理統計相關

一、何為數據的偏態分布？

頻數分布有正態分布和偏態分布之分。正態分布是指多數頻數集中在中央位置，兩端的頻數分布大致對稱。

偏態分布是指頻數分布不對稱，集中位置偏向一側。若集中位置偏向數值小的一側，稱為正偏態分布；集中位置偏向數值大的一側，稱為負偏態分布。

如果頻數分布的高峰向左偏移，長尾向右側延伸稱為正偏態分布，也稱右偏態分布；同樣的，如果頻數分布的高峰向右偏移，長尾向左延伸則成為負偏態分布，也稱左偏態分布。

峰左移，右偏，正偏

峰右移，左偏，負偏

性質：

1、當總體分布呈對稱狀態時，中位數=平均數

2、當總體分布呈右偏態狀態時，說明存在極大值，會把平均值向極大值方向拉，中位數<平均數

3、當總體分布呈左偏態狀態時，說明存在極小值，會把平均值向極小值方向拉，中位數>平均數

偏態分布只有滿足一定的條件（如樣本例數夠大等）才可以看做近似正態分布。

與正態分布相對而言，偏態分布有兩個特點：

　　一是左右不對稱（即所謂偏態）；

　　二是當樣本增大時，其均數趨向正態分布。

二、構建模型時為什么要盡量將偏態數據轉換為正態分布數據？

　　數據整體服從正態分布，那樣本均值和方差則相互獨立。正態分布具有很多好的性質，很多模型假設數據服從正態分布。例如線性回歸(linear regression)，它假設誤差服從正態分布，從而每個樣本點出現的概率就可以表示成正態分布的形式，將多個樣本點連乘再取對數，就是所有訓練集樣本出現的條件概率，最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達式的形式就是我們熟悉的誤差平方和。總之， ML中很多model都假設數據或參數服從正態分布。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 偏態分布數據面試題：正態分布、偏態分布及峰態分布偏態分布（Skewed distribution）偏態分布的均值與中位數關系偏度與峰度的正態性分布判斷偏度與峰度的正態性分布判斷數據分布形態：峰度與偏度數據分布轉換：非正態 -> 正態正態分布數據檢驗-偏度峰度檢驗法統計學中數據分布的偏度(skewness)和峰度(kurtosis）