異常值檢測算法二:箱線圖四分位檢測


四分位數(Quartile)應用於統計學中的箱線圖繪制,是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。如下圖

其中四分位數的位置算法:

  • Q1的位置 = (n+1) × 0.25
  • Q2的位置 = (n+1) × 0.5
  • Q3的位置 = (n+1) × 0.75

注意: 當 (n+1)/ 4 不能整除時算法參考:

箱型圖


  利用箱型圖的四分位距(IQR)對異常值進行檢測, 提供了識別異常值的一個標准:異常值通常被定義為 小於 QL-1.5IQR 大於 QU+1.5IQR 的值。

  • QL: 稱為下四分位數,表示全部觀察值中有四分之一的數據取值比它小;
  • QU: 稱為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;
  • IQR:稱為四分位數間距,是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半

異常值


公式:

  • 最小估計值:Q1 - k(Q3-Q1)
  • 最大估計值: Q3 + k(Q3-Q1)

其中:

  • K=1.5(中度異常)
  • K=3 (極度異常)

當數值大於 > 最大估計值 或 數值小於 < 最小估計值,都記為異常,如下圖:

說明:圖中 小於67.75,大於73.75 的數值都記為異常值

總結:箱型圖依據實際數據繪制,沒有對數據作任何限制性要求(如服從某種特定的分布形式),它只是真實直觀地表現數據分布的本來面貌;另一方面,箱型圖判斷異常值的標准以四分位數和四分位距為基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標准施加影響。由此可見,箱型圖識別異常值的結果比較客觀,在識別異常值方面有一定的優越性

分位數

 


  •  

     

     

參考資料:



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM