參考:
2、千分位函數percentile()和percentile_approx()
3、Excel如何計算分位數:PERCENTILE函數用法實
百分位是用來定位的。管中窺豹,可見一斑。
如果知道某數在一個有序排列的集合中,處於什么位置,我們就對整個數據集合就有了概念。
比如班里有100個學生,某次考試成績出來,你拿到了85分,想知道自己處於班里什么水平,有沒有擠進前5%。那就把大家的成績從低到高排列,排到你85分是在第95個,那恭喜,有95%的人都比你低(ps:我理解的是班上有95%不比你高,所以你是95%中的最高值)。也就是說,如果我們知道了某個數據集合的95th percentile=X,那我們就可以知道有95%的數值都比它低(或高)。
95th percentile百分點指的是所給數集中超過其95%的數。它是一個統計學上的概念。對於某個接口,准確統計它的流量時非常有用,它可以取出一些偶然得到的異常值。
95th百分點是統計時所采用的最高值,超過的5%的數據將被舍棄。這樣可以將瞬間的毛刺(尖峰)去掉,使統計平均更具真實意義。
例如: 收集的數據為60,45,43,21,56,89,76,32,22,10,12,14,23,35,45,43,23,23,43,23 (20 個點)。將該序列降序排列,其最大值為89。由於20個點中1個點占5%,所以我們舍棄1個最大值89。剩下的最大值76就是我們所說的95th百分點
怎么算?
在實際應用中,數據不會這么湊巧。所以,要計算的話,我們需要先定位到這個百分位數是多少。
公式是:(n為集合里面的數據個數)
Location=(n+1)*percentile
(PS:加1是為了保證c%的數都比該數低?這種情況可能需要排除等於的情況)
例如:
看到了吧。算出來如果是小數的話,要將第9個數和第10個數之間的差值繼續分割,進而定位到具體的數值。
怎么用?
經常可以看到百分位數用在KPI考核上。比如客服部門,按檔位算獎金。要保證至少一半的人能拿到獎金,而只有2%的人能夠拿到最高額的獎金。怎么設計KPI呢?就可以按照通話數量或者投訴率的百分位來設計。將每月接通的電話數從低到高排列,50分位是1200通。也就是有一半的人都能達到。想要獎金,至少達到這個標准。投訴率從高到低排列,98分位為5.44%,那就是說只有2%的人能將投訴率保持在5.44%以下。
表示近似最大值(類似計分時,去掉一批最高分):F(95%) = 98 意思是 95% 的數低於 98(約等於 5% 的數高於 98),也就是近似最大值 = 98。
表示近似最小值(類似計分時,去掉一批最低分):F(5%) = 30 意思是 5% 的數低於 30(約等於 95% 的數高於 30),也就是近似最小值 = 30。
表示中位數:F(50%) = 75 意思是 50% 的數低於 75(約等於 50% 的數高於 75),也就是中位數 = 75。
在計算百分位數的時候有這樣幾種方法:
(1)最近序數方法(The Nearest Rank method)
(2)在最近序數間線性插值的方法(The Linear Interpolation Between Closest Ranks method)
(3)權重百分位數方法(The Weighted Percentile method)
(4)微軟excel表格算法(Microsoft Excel method)
(5)NIST方法(NIST method)