【數據清洗】異常點的理解與處理方法(1)


異常點、高杠桿點、強影響點

異常點:殘差很大的點;

高杠桿點:遠離樣本空間中心的點;

強影響點:改變擬合回歸方程特征的點。

注意:

A點:非異常點、高杠桿點、非強影響點

  1. A點在X空間中距離樣本的中心較遠,A是個高杠桿點;
  2. A點的位置在通過其他點的直線附近,殘差很小,對擬合回歸方程沒有很大的影響,A點不是異常點也不是強影響點。

B點:異常點、非高杠桿點、強影響點

  1. B點在X空間中距離樣本的中心較近,B不是高杠桿點;
  2. B點的殘差很大,是異常點也是強影響點;
  3. 注意:B點的存在沒有改變擬合直線的斜率,但是改變了擬合直線的截距。

C點:異常點、高杠桿點、強影響點

  1. C點的殘差很大,所以點是一個異常點;
  2. C點在方向上遠離其它的點的中心,所以點是一個高杠桿點;
  3. C點的引入實質性的改變擬合回歸方程的特征,所以它是一個強影響點。

 

 

異常值處理:

  1. 簡單的統計量分析

    對變量做一個描述性統計,進而查看哪些數據是不合理的,最常用的統計量是最大值和最小值,用來判斷這個變量的取值是否超出了合理的范圍。如:客戶年齡的最大值為199歲,則該變量存在異常。

  2. 3原則

    若數據服從正態分布,在3原則下,異常值被定義:一組測定值中與平均值的偏差超過三倍標准差的值。在正態分布的假設下,距離平均值3之外的值出現的概率為,屬於極個別小概率事件。

  3. 箱型圖分析

    異常值定義:小於或大於的值。

    :下四分位數

    :上四分位數

    :四分位數間距,上下四分位數之差,其間包含全部觀測值的一半

異常檢測的混合模型方法

步驟如下:

1:    初始化:在時刻t=0,令Gt包含所有對象,而Bt為空;

    令F(Gt,Bt)為好壞觀測點划分的評價函數。

2:    for 屬於Gt的每個點x do

3:    將x從Gt移動到Bt,產生新的數據集合Gt+1和Bt+1

4:    計算D的新的評價函數的值。

5:    計算差值:= F(Gt+1,Bt+1)- F(Gt,Bt)

6:    if ,其中c是某個閾值 then

7:    將觀測x分類為異常。

8:    end if

9:end for

 

G可以理解為好的觀測的集合,B理解為懷的觀測的集合。

評價函數可以有很多種:如馬氏距離、整個數據集的似然和對數似然等等

以馬氏距離划分為例:

如果一種划分方式具有以下性質,我們認為這是合理的:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM