1 離群點和離群點分析

1.2 離群點的類型

a.全局離群點

顯著偏離數據集中的其余對象，最簡單的一類離群點。

檢測方法：找到一個合適的偏離度量

b.情境離群點

離群點的值依賴於情境。分為情境屬性（定義對象的情境）和行為屬性（定義對象的特征）

c.集體離群點

數據對象的子集形成集體離群點，如果這些對象作為整體顯著偏離整個數據集。

1.3 離群點檢測的挑戰

正常數據與異常數據的界限不明顯；

離群點≠噪聲

2 離群點檢測方法

兩大類：

a.根據用於分析的數據樣本是否具有領域專家提供的，可以用來構建離群點檢測模型的標號，對離群點檢測方法進行分類：

2.1 監督、半監督、無監督

a.監督方法：

專家標記出正常對象，對其建模構造分類器，不與正常對象模型匹配的其他對象都視為離群點

挑戰：類不平衡問題；捕獲盡可能多的離群點比把正常對象武當離群點更重要

b.無監督方法：

沒有標記，假定“正常對象在某種程度上是聚類的”。

中心思想：先找出簇，然后，不屬於任何簇的對象都被檢測為離群點。

兩個問題：不屬於任何簇的對象可能是噪聲，而不是離群點；先找出簇，在找出離群點的開銷可能太大。

c.半監督方法

b.根據各方法關於正常對象和離群點的假定，對各方法分組：

3 統計學方法

統計學：假定正常的數據對象由一個統計模型產生，正常對象出現在該隨機模型的高概率區域中，而低概率區域中的對象是離群點。

參數方法：

基於正態分布的一元離群點檢測：

      a.最大似然檢測一元離群點；

      b.grubb檢驗（最大標准殘差檢驗）；

多元離群點：（核心思想：把多元離群點檢測任務轉換成一元離群點檢測問題）

      a.馬哈拉諾比斯距離檢測多元離群點；

      b.X²統計量的多元離群點檢測；

使用混合參數分布

       a.假定正常的數據對象被多個正態分布產生；

       b.使用多個簇檢測多元離群點；

非參數方法：

       直方圖檢測離群點

              缺點：很難選擇一個合適的箱尺寸，箱太小，容易被誤識別為離群點；箱太大，離群點容易被誤認為正常。

              為了解決這個問題，可以采用核密度估計來估計數據的概率密度分布。把每個觀測對象看作一個周圍區域中的高概率密度指示子。一個點上的概率密度依賴於該點到觀測對象的距離。使用核函數對樣本點對其鄰域內的影響建模。核函數是一個非負實數值可積函數。