數據預處理之異常值處理


  定義:異常值,即在數據集中存在不合理的值,又稱離群點。比如年齡為-1,筆記本電腦重量為1噸等,都屬於異常值的范圍。從集合角度來看,異常值即離群點。

如下圖所示:

這里寫圖片描述

判別方法:

 1.簡單統計分析

  對屬性值進行一個描述性的統計,從而查看哪些值是不合理的。比如對年齡這個屬性進行規約:年齡的區間在[0:200],如果樣本中的年齡值不再該區間范圍內,則表示該樣本的年齡屬性屬於異常值。

2. 3δ原則

  當數據服從正態分布:

  根據正態分布的定義可知,距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ,這屬於極小概率事件,在默認情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。 因此,當樣本距離平均值大於3δ,則認定該樣本為異常值。

這里寫圖片描述

  當數據不服從正態分布:

  當數據不服從正態分布,可以通過遠離平均距離多少倍的標准差來判定,多少倍的取值需要根據經驗和實際情況來決定。

3.箱型圖分析

  箱型圖提供了一個識別異常值的標准,即大於或小於箱型圖設定的上下界的數值即為異常值,箱型圖如下圖所示:

這里寫圖片描述

  首先我們定義下上四分位和下四分位。

  上四分位我們設為 U,表示的是所有樣本中只有1/4的數值大於U 同理,下四分位我們設為 L,表示的是所有樣本中只有1/4的數值小於L

  那么,上下界又是什么呢?

  我們設上四分位與下四分位的插值為IQR,即:IQR=U-L;那么,上界為 U+1.5IQR ,下界為: L - 1.5IQR箱型圖選取異常值比較客觀,在識別異常值方面有一定的優越性。

常用處理方法:

  異常值的處理方法常用有四種:

  1.刪除含有異常值的記錄

  2.將異常值視為缺失值,交給缺失值處理方法來處理

  3.用平均值來修正

  4.不處理

  需要強調的是,如何判定和處理異常值,需要結合實際。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM