數據的偏度skew和峰度kurtosis


偏度和峰度是數據處理中常用的用來分析數據分布程度的指標,Pandas中提供了這兩個函數。

skew 偏度

偏度(skew),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。偏度(Skewness)亦稱偏態、偏態系數。表征概率分布密度曲線相對於平均值不對稱程度的特征數。直觀看來就是密度函數曲線尾部的相對長度。公式如下:
image
上式中:
μ為均值,σ為標准差,E為期望算子,μ3為第三中心矩,κt為t階累積量。
下圖體現了相對於正態分布的偏度正負值:
image

Pandas使用示例:

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.skew(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].skew()

kurtosis 峰度

峰度(peakedness;kurtosis)又稱峰態系數。表征概率密度分布曲線在平均值處峰值高低的特征數。直觀看來,峰度反映了峰部的尖度。樣本的峰度是和正態分布相比較而言統計量,如果峰度大於三,峰的形狀比較尖,比正態分布峰要陡峭。反之亦然。
image
其中μ4為第四中心矩,σ為標准差。文獻中用了幾個字母來表示峰度。最常見的選擇是κ,只要明確表示它不指向累積量就可以。其他選擇包括γ2,類似於偏斜度的符號,盡管有時這被保留為多余的峰度。
image
Pandas使用示例:

# importing pandas as pd
import pandas as pd
  
# Creating the dataframe 
df = pd.read_csv("nba.csv")
  
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)

# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM