參考:https://blog.csdn.net/u013719780/article/details/48901183
異常點檢測方法
一、基本概念
異常對象被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。
常見的異常成因:數據來源於不同的類(異常對象來自於一個與大多數數據對象源(類)不同的源(類)的思想),自然變異,以及數據測量或收集誤差。
異常檢測的方法:
(1)基於模型的技術:首先建立一個數據模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬於任何簇的對象;在使用回歸模型時,異常是相對遠離預測值的對象。
(2)基於鄰近度的技術:通常可以在對象之間定義鄰近性度量,異常對象是那些遠離其他對象的對象。
(3)基於密度的技術:僅當一個點的局部密度顯著低於它的大部分近鄰時才將其分類為離群點。
二、異常點檢測的方法
1、統計方法檢測離群點
統計學方法是基於模型的方法,即為數據創建一個模型,並且根據對象擬合模型的情況來評估它們。大部分用於離群點檢測的統計學方法都是構建一個概率分布模型,並考慮對象有多大可能符合該模型。離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什么分布,如果估計錯誤就造成了重尾分布。異常檢測的混合模型方法:對於異常檢測,數據用兩個分布的混合模型建模,一個分布為普通數據,而另一個為離群點。
聚類和異常檢測目標都是估計分布的參數,以最大化數據的總似然(概率)。聚類時,使用EM算法估計每個概率分布的參數。然而,這里提供的異常檢測技術使用一種更簡單的方法。初始時將所有對象放入普通對象集,而異常對象集為空。然后,用一個迭代過程將對象從普通集轉移到異常集,只要該轉移能提高數據的總似然(其實等價於把在正常對象的分布下具有低概率的對象分類為離群點)。(假設異常對象屬於均勻分布)。異常對象由這樣一些對象組成,這些對象在均勻分布下比在正常分布下具有顯著較高的概率。
優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。
2、基於鄰近度的離群點檢測。
一個對象是異常的,如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用,因為確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。一個對象的離群點得分由到它的k-最近鄰的距離給定。離群點得分對k的取值高度敏感。如果k太小(例如1),則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少於k的簇中所有的對象可能都成了離群點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優缺點:(1)簡單;(2)缺點:基於鄰近度的方法需要O(m2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
3、基於密度的離群點檢測。
從基於密度的觀點來說,離群點是在低密度區域中的對象。一個對象的離群點得分是該對象周圍密度的逆。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。需要小心的選擇d,如果d太小,則許多正常點可能具有低密度,從而具有高離群點得分。如果d太大,則許多離群點可能具有與正常點類似的密度(和離群點得分)。使用任何密度定義檢測離群點具有與基於鄰近度的離群點方案類似的特點和局限性。特殊地,當數據包含不同密度的區域時,它們不能正確的識別離群點。
為了正確的識別這種數據集中的離群點,我們需要與對象鄰域相關的密度概念,也就是定義相對密度。常見的有兩種方法:(1)使用基於SNN密度的聚類算法使用的方法;(2)用點x的密度與它的最近鄰y的平均密度之比作為相對密度。
使用相對密度的離群點檢測(局部離群點要素LOF技術):首先,對於指定的近鄰個數(k),基於對象的最近鄰計算對象的密度density(x,k) ,由此計算每個對象的離群點得分;然后,計算點的鄰近平均密度,並使用它們計算點的平均相對密度。這個量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內,並取作x的離群點得分(這個是建立在上面的離群點得分基礎上的)。
優缺點:
(1)給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;
(2)與基於距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對於低維數據使用特定的數據結構可以達到O(mlogm);
(3)參數選擇是困難的。雖然LOF算法通過觀察不同的k值,然后取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
4、基於聚類的技術
一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。這個方法可以和其他任何聚類技術一起使用,但是需要最小簇大小和小簇與其他簇之間距離的閾值。這種方案對簇個數的選擇高度敏感。使用這個方案很難將離群點得分附加到對象上。一種更系統的方法,首先聚類所有對象,然后評估對象屬於簇的程度(離群點得分)(基於原型的聚類可用離中心點的距離來評估,對具有目標函數的聚類技術該得分反映刪除對象后目標函數的改進(這個可能是計算密集的))。基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇。離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。還有一種更復雜的方法:取一組不能很好的擬合任何簇的特殊對象,這組對象代表潛在的離群點。隨着聚類過程的進展,簇在變化。不再強屬於任何簇的對象被添加到潛在的離群點集合;而當前在該集合中的對象被測試,如果它現在強屬於一個簇,就可以將它從潛在的離群點集合中移除。聚類過程結束時還留在該集合中的點被分類為離群點(這種方法也不能保證產生最優解,甚至不比前面的簡單算法好,在使用相對距離計算離群點得分時,這個問題特別嚴重)。
對象是否被認為是離群點可能依賴於簇的個數(如k很大時的噪聲簇)。該問題也沒有簡單的答案。一種策略是對於不同的簇個數重復該分析。另一種方法是找出大量小簇,其想法是(1)較小的簇傾向於更加凝聚,(2)如果存在大量小簇時一個對象是離群點,則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇而逃避檢測。
優缺點:
(1)基於線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;
(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;
(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;
(4)聚類算法產生的簇的質量對該算法產生的離群點的質量影響非常大。
異常檢測算法--Isolation Forest
參考:https://www.cnblogs.com/fengfenggirl/p/iForest.html
南大周志華老師在2010年提出一個異常檢測算法Isolation Forest,在工業界很實用,算法效果好,時間效率高,能有效處理高維數據和海量數據,這里對這個算法進行簡要總結。
iTree
提到森林,自然少不了樹,畢竟森林都是由樹構成的,看Isolation Forest(簡稱iForest)前,我們先來看看Isolation Tree(簡稱iTree)是怎么構成的,iTree是一種隨機二叉樹,每個節點要么有兩個女兒,要么就是葉子節點,一個孩子都沒有。給定一堆數據集D,這里D的所有屬性都是連續型的變量,iTree的構成過程如下:
- 隨機選擇一個屬性Attr;
- 隨機選擇該屬性的一個值Value;
- 根據Attr對每條記錄進行分類,把Attr小於Value的記錄放在左女兒,把大於等於Value的記錄放在右孩子;
- 然后遞歸的構造左女兒和右女兒,直到滿足以下條件:
- 傳入的數據集只有一條記錄或者多條一樣的記錄;
- 樹的高度達到了限定高度;
iTree構建好了后,就可以對數據進行預測啦,預測的過程就是把測試記錄在iTree上走一下,看測試記錄落在哪個葉子節點。iTree能有效檢測異常的假設是:異常點一般都是非常稀有的,在iTree中會很快被划分到葉子節點,因此可以用葉子節點到根節點的路徑h(x)長度來判斷一條記錄x是否是異常點;對於一個包含n條記錄的數據集,其構造的樹的高度最小值為log(n),最大值為n-1,論文提到說用log(n)和n-1歸一化不能保證有界和不方便比較,用一個稍微復雜一點的歸一化公式:
,
s(x,n)s(x,n)就是記錄x在由n個樣本的訓練數據構成的iTree的異常指數,s(x,n)s(x,n)取值范圍為[0,1],越接近1表示是異常點的可能性高,越接近0表示是正常點的可能性比較高,如果大部分的訓練樣本的s(x,n)都接近於0.5,說明整個數據集都沒有明顯的異常值。
隨機選屬性,隨機選屬性值,一棵樹這么隨便搞肯定是不靠譜,但是把多棵樹結合起來就變強大了;
iForest
iTree搞明白了,我們現在來看看iForest是怎么構造的,給定一個包含n條記錄的數據集D,如何構造一個iForest。iForest和Random Forest的方法有些類似,都是隨機采樣一一部分數據集去構造每一棵樹,保證不同樹之間的差異性,不過iForest與RF不同,采樣的數據量PsiPsi不需要等於n,可以遠遠小於n,論文中提到采樣大小超過256效果就提升不大了,明確越大還會造成計算時間的上的浪費,為什么不像其他算法一樣,數據越多效果越好呢,可以看看下面這兩個個圖,
左邊是元素數據,右邊是采樣了數據,藍色是正常樣本,紅色是異常樣本。可以看到,在采樣之前,正常樣本和異常樣本出現重疊,因此很難分開,但我們采樣之和,異常樣本和正常樣本可以明顯的分開。
除了限制采樣大小以外,還要給每棵iTree設置最大高度l=ceiling(logΨ2)l=ceiling(log2Ψ),這是因為異常數據記錄都比較少,其路徑長度也比較低,而我們也只需要把正常記錄和異常記錄區分開來,因此只需要關心低於平均高度的部分就好,這樣算法效率更高,不過這樣調整了后,后面可以看到計算h(x)h(x)需要一點點改進,先看iForest的偽代碼:
IForest構造好后,對測試進行預測時,需要進行綜合每棵樹的結果,於是
E(h(x))E(h(x))表示記錄x在每棵樹的高度均值,另外h(x)計算需要改進,在生成葉節點時,算法記錄了葉節點包含的記錄數量,這時候要用這個數量SizeSize估計一下平均高度,h(x)的計算方法如下:
處理高維數據
在處理高維數據時,可以對算法進行改進,采樣之后並不是把所有的屬性都用上,而是用峰度系數Kurtosis挑選一些有價值的屬性,再進行iTree的構造,這跟隨機森林就更像了,隨機選記錄,再隨機選屬性。
只使用正常樣本
這個算法本質上是一個無監督學習,不需要數據的類標,有時候異常數據太少了,少到我們只舍得拿這幾個異常樣本進行測試,不能進行訓練,論文提到只用正常樣本構建IForest也是可行的,效果有降低,但也還不錯,並可以通過適當調整采樣大小來提高效果。