偏度和峰度是數據處理中常用的用來分析數據分布程度的指標,Pandas中提供了這兩個函數。
skew 偏度
偏度(skew),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。偏度(Skewness)亦稱偏態、偏態系數。表征概率分布密度曲線相對於平均值不對稱程度的特征數。直觀看來就是密度函數曲線尾部的相對長度。公式如下:
上式中:
μ為均值,σ為標准差,E為期望算子,μ3為第三中心矩,κt為t階累積量。
下圖體現了相對於正態分布的偏度正負值:
Pandas使用示例:
# importing pandas as pd
import pandas as pd
# Creating the dataframe
df = pd.read_csv("nba.csv")
# skewness along the index axis
df.skew(axis = 0, skipna = True)
# use on df.groupby
df.groupby(['group'])["feature"].skew()
kurtosis 峰度
峰度(peakedness;kurtosis)又稱峰態系數。表征概率密度分布曲線在平均值處峰值高低的特征數。直觀看來,峰度反映了峰部的尖度。樣本的峰度是和正態分布相比較而言統計量,如果峰度大於三,峰的形狀比較尖,比正態分布峰要陡峭。反之亦然。
其中μ4為第四中心矩,σ為標准差。文獻中用了幾個字母來表示峰度。最常見的選擇是κ,只要明確表示它不指向累積量就可以。其他選擇包括γ2,類似於偏斜度的符號,盡管有時這被保留為多余的峰度。
Pandas使用示例:
# importing pandas as pd
import pandas as pd
# Creating the dataframe
df = pd.read_csv("nba.csv")
# skewness along the index axis
df.kurtosis(axis = 0, skipna = True)
# use on df.groupby
df.groupby(['group'])["feature"].apply(pd.DataFrame.kurt)