通常,異常值的識別可以借助於圖形法(如箱線圖、正態分布圖)和建模法(如線性回歸、聚類算法、K近鄰算法),在本期內容中,將分享兩種圖形法,在下一期將分享基於模型識別異常值的方法。
1、可以使用線箱法
圖中的下四分位數指的是數據的25%分位點所對應的值(Q1);中位數即為數據的50%分位點所對應的值(Q2);上四分位數則為數據的75%分位點所對應的值(Q3);上須的計算公式為Q3+1.5(Q3-Q1);下須的計算公式為Q1-1.5(Q3-Q1)。其中,Q3-Q1表示四分位差。如果采用箱線圖識別異常值,其判斷標准是,當變量的數據值大於箱線圖的上須或者小於箱線圖的下須時,就可以認為這樣的數據點為異常點。
2、正態分布圖法
根據正態分布的定義可知,數據點落在偏離均值正負1倍標准差(即sigma值)內的概率為68.2%;數據點落在偏離均值正負2倍標准差內的概率為95.4%;數據點落在偏離均值正負3倍標准差內的概率為99.6%。
outlier_ll = df45.kedanjia.mean()-3*df45.kedanjia.std()
outlier_ul = df45.kedanjia.mean()+3*df45.kedanjia.std()
df45[df45.kedanjia>outlier_ul]
在行業報告中,正太分布比線箱法有用,因為即便是同一個子類,他們的客單價差距也可能會很大,使用3倍的方差比較安全。