異常點、高杠桿點、強影響點
異常點:殘差很大的點;
高杠桿點:遠離樣本空間中心的點;
強影響點:改變擬合回歸方程特征的點。
注意:
A點:非異常點、高杠桿點、非強影響點
- A點在X空間中距離樣本的中心較遠,A是個高杠桿點;
- A點的位置在通過其他點的直線附近,殘差很小,對擬合回歸方程沒有很大的影響,A點不是異常點也不是強影響點。
B點:異常點、非高杠桿點、強影響點
- B點在X空間中距離樣本的中心較近,B不是高杠桿點;
- B點的殘差很大,是異常點也是強影響點;
- 注意:B點的存在沒有改變擬合直線的斜率,但是改變了擬合直線的截距。
C點:異常點、高杠桿點、強影響點
- C點的殘差很大,所以點是一個異常點;
- C點在方向上遠離其它的點的中心,所以點是一個高杠桿點;
- C點的引入實質性的改變擬合回歸方程的特征,所以它是一個強影響點。
異常值處理:
-
簡單的統計量分析
對變量做一個描述性統計,進而查看哪些數據是不合理的,最常用的統計量是最大值和最小值,用來判斷這個變量的取值是否超出了合理的范圍。如:客戶年齡的最大值為199歲,則該變量存在異常。
-
3
原則
若數據服從正態分布,在3
原則下,異常值被定義:一組測定值中與平均值的偏差超過三倍標准差的值。在正態分布的假設下,距離平均值3
之外的值出現的概率為
,屬於極個別小概率事件。
-
箱型圖分析
異常值定義:小於
或大於
的值。
:下四分位數
:上四分位數
:四分位數間距,上下四分位數之差,其間包含全部觀測值的一半
異常檢測的混合模型方法
步驟如下:
1: 初始化:在時刻t=0,令Gt包含所有對象,而Bt為空;
令F(Gt,Bt)為好壞觀測點划分的評價函數。
2: for 屬於Gt的每個點x do
3: 將x從Gt移動到Bt,產生新的數據集合Gt+1和Bt+1。
4: 計算D的新的評價函數的值。
5: 計算差值:= F(Gt+1,Bt+1)- F(Gt,Bt)
6: if ,其中c是某個閾值 then
7: 將觀測x分類為異常。
8: end if
9:end for
G可以理解為好的觀測的集合,B理解為懷的觀測的集合。
評價函數可以有很多種:如馬氏距離、整個數據集的似然和對數似然等等
以馬氏距離划分為例:
如果一種划分方式具有以下性質,我們認為這是合理的: