數據的偏度skew和峰度kurtosis

本文轉載自查看原文 2022-04-07 21:01 1744 數據處理

偏度和峰度是數據處理中常用的用來分析數據分布程度的指標，Pandas中提供了這兩個函數。

skew 偏度

偏度（skew），是統計數據分布偏斜方向和程度的度量，是統計數據分布非對稱程度的數字特征。偏度(Skewness)亦稱偏態、偏態系數。表征概率分布密度曲線相對於平均值不對稱程度的特征數。直觀看來就是密度函數曲線尾部的相對長度。公式如下：

上式中：
μ為均值，σ為標准差，E為期望算子，μ3為第三中心矩，κt為t階累積量。
下圖體現了相對於正態分布的偏度正負值：

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.skew(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].skew()

kurtosis 峰度

峰度（peakedness;kurtosis）又稱峰態系數。表征概率密度分布曲線在平均值處峰值高低的特征數。直觀看來，峰度反映了峰部的尖度。樣本的峰度是和正態分布相比較而言統計量，如果峰度大於三，峰的形狀比較尖，比正態分布峰要陡峭。反之亦然。

其中μ4為第四中心矩，σ為標准差。文獻中用了幾個字母來表示峰度。最常見的選擇是κ，只要明確表示它不指向累積量就可以。其他選擇包括γ2，類似於偏斜度的符號，盡管有時這被保留為多余的峰度。

Pandas使用示例：

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 統計學中數據分布的偏度(skewness)和峰度(kurtosis）機器學習筆記：偏度skew與峰度kurt 偏度和峰度 python計算峰度和偏度機器學習數學筆記|偏度與峰度及其python實現數據的蜂度和偏度數據科學【系列1】｜統計入門｜正態分布與三西格瑪原則及偏度（下）巧妙解決百度地圖加偏糾偏問題 Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢偏導數