1 離群點和離群點分析
1.2 離群點的類型
a.全局離群點
顯著偏離數據集中的其余對象,最簡單的一類離群點。
檢測方法:找到一個合適的偏離度量
b.情境離群點
離群點的值依賴於情境。分為情境屬性(定義對象的情境)和行為屬性(定義對象的特征)
c.集體離群點
數據對象的子集形成集體離群點,如果這些對象作為整體顯著偏離整個數據集。
1.3 離群點檢測的挑戰
正常數據與異常數據的界限不明顯;
離群點≠噪聲
2 離群點檢測方法
兩大類:
a.根據用於分析的數據樣本是否具有領域專家提供的,可以用來構建離群點檢測模型的標號,對離群點檢測方法進行分類:
2.1 監督、半監督、無監督
a.監督方法:
專家標記出正常對象,對其建模構造分類器,不與正常對象模型匹配的其他對象都視為離群點
挑戰:類不平衡問題;捕獲盡可能多的離群點比把正常對象武當離群點更重要
b.無監督方法:
沒有標記,假定“正常對象在某種程度上是聚類的”。
中心思想:先找出簇,然后,不屬於任何簇的對象都被檢測為離群點。
兩個問題:不屬於任何簇的對象可能是噪聲,而不是離群點;先找出簇,在找出離群點的開銷可能太大。
c.半監督方法
b.根據各方法關於正常對象和離群點的假定,對各方法分組:
3 統計學方法
統計學:假定正常的數據對象由一個統計模型產生,正常對象出現在該隨機模型的高概率區域中,而低概率區域中的對象是離群點。
參數方法:
基於正態分布的一元離群點檢測:
a.最大似然檢測一元離群點;
b.grubb檢驗(最大標准殘差檢驗);
多元離群點:(核心思想:把多元離群點檢測任務轉換成一元離群點檢測問題)
a.馬哈拉諾比斯距離檢測多元離群點;
b.X²統計量的多元離群點檢測;
使用混合參數分布
a.假定正常的數據對象被多個正態分布產生;
b.使用多個簇檢測多元離群點;
非參數方法:
直方圖檢測離群點
缺點:很難選擇一個合適的箱尺寸,箱太小,容易被誤識別為離群點;箱太大,離群點容易被誤認為正常。
為了解決這個問題,可以采用核密度估計來估計數據的概率密度分布。把每個觀測對象看作一個周圍區域中的高概率密度指示子。一個點上的概率密度依賴於該點到觀測對象的距離。使用核函數對樣本點對其鄰域內的影響建模。核函數是一個非負實數值可積函數。
4 基於鄰近性的方法
假定一個對象是離群點,如果它在特征空間中的最近鄰也遠離它,即該對象與它的最近鄰性顯著地偏離數據集中的其他對象與他們的近鄰之間的近鄰性
基於距離的離群點檢測和嵌套循環方法——考察對象給定半徑的鄰域
基於網格的方法——CELL
基於密度的離群點檢測——考察對象和它鄰近的密度
5 基於聚類的方法
假定正常數據對象屬於大的稠密的簇,而離群點屬於小的或稀疏的簇,或者不屬於簇。
-
使用到最近簇的距離的基於聚類的離群點檢測;
-
通過基於聚類的離群點檢測進行入侵檢測;——CBLOF
-
檢測小簇中的離群點;
優點:
無監督
缺點:
有效性依賴於所使用的聚類方法,開銷大
6 基於分類的方法
點是有標號的,可用於構建分類器:如用svm來構建決策邊界
7 挖掘情境離群點和集體離群點
7.1 情境離群點--->傳統的離群點檢測
7.2 關於情境對正常行為建模
7.3 挖掘集體離群點
- 識別結構單元
- 直接對結構單元的期望行為進行建模
8 高維數據中的離群點檢測
挑戰:
- 離群點的解釋
- 數據的稀疏性
- 數據子空間
- 於維度的可伸縮性
8.1 擴充的傳統離群點檢測
eg.HilOut算法
思想:高維規約到低維,使用傳統的離群點檢測方法
降維可采用PCA主成份分析
8.2 發現子空間中的離群點
8.3 高維離群點建模
eg.可以算角度