四分位數(Quartile)應用於統計學中的箱線圖繪制,是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。如下圖
其中四分位數的位置算法:
- Q1的位置 = (n+1) × 0.25
- Q2的位置 = (n+1) × 0.5
- Q3的位置 = (n+1) × 0.75
注意: 當 (n+1)/ 4 不能整除時算法參考:
箱型圖
利用箱型圖的四分位距(IQR)對異常值進行檢測, 提供了識別異常值的一個標准:異常值通常被定義為 小於 QL-1.5IQR 或 大於 QU+1.5IQR 的值。
- QL: 稱為下四分位數,表示全部觀察值中有四分之一的數據取值比它小;
- QU: 稱為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;
- IQR:稱為四分位數間距,是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半
異常值
公式:
- 最小估計值:Q1 - k(Q3-Q1)
- 最大估計值: Q3 + k(Q3-Q1)
其中:
- K=1.5(中度異常)
- K=3 (極度異常)
當數值大於 > 最大估計值 或 數值小於 < 最小估計值,都記為異常,如下圖:
說明:圖中 小於67.75,大於73.75 的數值都記為異常值
總結:箱型圖依據實際數據繪制,沒有對數據作任何限制性要求(如服從某種特定的分布形式),它只是真實直觀地表現數據分布的本來面貌;另一方面,箱型圖判斷異常值的標准以四分位數和四分位距為基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標准施加影響。由此可見,箱型圖識別異常值的結果比較客觀,在識別異常值方面有一定的優越性
分位數
參考資料: