特征工程系列:(四)異常值識別與處理


在進行特征工程的時候,為了確保模型的准確性,需要將一些異常數據排除,從而防止模型被帶偏。因此,在特征工程任務中,需要一些方法,來識別異常值。

異常值識別

(1) 箱線法

通常用戶用某個統計分布對數據點進行建模,再以假定的模型,根據點的分布來確定是否異常。
如通過分析統計數據的散度情況,即數據變異指標,對數據的分布情況有所了解,進而通過數據變異指標來發現數據中的異常點數據。

箱線圖是一種用作顯示一組數據分散情況資料的統計圖,它可以准確的描述數據的離散分布情況。在箱線圖中,有一些常用的指標:下分位數Q1,中位數(第二個四分位數),上分位數(Q3),上限和下限,超出上限和下限的值可以被看做是異常值。

(2) 正太分布圖,3σ原則

若數據存在正態分布,在 3σ原則下,異常值為一組測定值中與平均值的偏差超過3倍標准差的值。如果數據服從正態分布,距離平均值3σ之外的值出現的概率為P(|x - μ| > 3σ) <= 0.003,屬於極個別的小概率事件。如果數據不服從正態分布,也可以用遠離平均值的多少倍標准差來描述。

(3) 基於模型檢驗

首先建立一個數據模型,如果有些數據,模型無法擬合,那么可以將這些數據看做為異常值。例如使用k-means算法,如果數據距離中心非常遠,可以看做是異常值。如果是回歸模型,那么如果數據距離回歸曲線非常遠,那么也可以看做異常值,具體情況要根據實際業務靈活判斷。

這個方法的缺點是,對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。

(4) 基於距離

基於距離的方法是基於下面這個假設:即若一個數據對象和大多數點距離都很遠,那這個對象就是異常。通過定義對象之間的臨近性度量,根據距離判斷異常對象是否遠離其他對象,主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法。

這個方法的有點是使用起來比較簡單,缺點是,對於大數據,計算量會比較大。

(5) 基於密度

考察當前點周圍密度,可以發現局部異常點,離群點的局部密度顯著低於大部分近鄰點,適用於非均勻的數據集。

這個方法的優點是,給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理。缺點是計算量也很大,不適用於大數據。

異常值處理方法

對異常值處理,需要具體情況具體分析,異常值處理的方法常用有四種:

(1) 刪除含有異常值的記錄;某些篩選出來的異常樣本是否真的是不需要的異常特征樣本,最好找懂業務的再確認一下,防止我們將正常的樣本過濾掉了。

(2) 將異常值視為缺失值,交給缺失值處理方法來處理;

(3) 使用均值/中位數/眾數來修正;

(4) 稀有類back-off
有時候,除了異常值以外,有一些類別中,樣本量的個數非常的少,其實也可以將其視作異常值,有一個方法就是,可以將這些稀有類的值,全部放到一個箱子里面,看做為單獨的一類。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM