聚類算法評價指標學習筆記


聚類算法評價指標學習筆記

      本文列舉常用聚類性能度量指標,並列出相應代碼與參考資料

      聚類性能度量大致分兩類,一類將聚類結果與某個“參考模型”(reference model)進行比較,稱為“外部指標”(external index);另一類是直接考察聚類結果而不利用任何參考模型,稱為“內部指標”(internal index)。(機器學習,周志華)。本文主要針對聚類算法的外部指標做總結。

      與分類不同,聚類算法獲取的類別標簽具有不確定性,不能直接基於ground truth獲得類似於分類算法的錯誤率、召回率、精度等評價指標。聚類算法通常將樣本兩兩配對,再做進一步計算與評價。通過聚類給出的簇划分為C,參考模型(ground truth)給出的簇划分為K,通常K與C給出的簇類別數量不相同。定義a, b, c, d如下:

      a: 在C中屬於同一類別且在K中屬於同一類別的樣本對數量

      b: 在C中屬於同一類別且在K中屬於不同類別的樣本對數量

      c: 在C中屬於不同類別且在K中屬於同一類別的樣本對數量

      d: 在C中屬於不同類別且在K中屬於不同類別的樣本對數量

      記總樣本數量為m,顯而易見

 

 

      由上文可導出常用聚類性能度量外部指標:

  1. Jaccard 系數(Jaccard Coefficient,簡稱JC)

  1. FM指數(Fowlkes and Mallows Index,簡稱FMI)

 

 

  1. Rand指數(Rand Index,簡稱RI)

     

 

      顯然,上述性能度量的結果值均在 [0,1] 區間,值越大越好。

V-measure

V-measure 是同質性(homogeneity)和完整性(completeness)的調和平均數,

  1. 這個測度獨立於label的絕對值,調整類別標簽或聚類標簽的值不會改變測度結果。
  2. 這個測度關於類別標簽與聚類標簽對稱,交換類別標簽與聚類標簽不會使得測度結果發生變化。
  3. 當類別標簽未知時,這種測度方法還可以用來比較兩種標記策略的相似程度。
  4. V-measure取值在[0,1]區間內,值越大相似程度越高。

Mutual information

  已知聚類標簽與真實標簽,互信息(mutual information)能夠測度兩種標簽排列之間的相關性,同時忽略標簽中的排列。有兩種不同版本的互信息以供選擇,一種是Normalized Mutual Information(NMI),一種是Adjusted Mutual Information(AMI)。比起最近才提出的AMI,更早提出的NMI更頻繁地應用於文獻中。

  MI、NMI、AMI都是對稱函數,交換變量不改變函數值,因此可以用做一致性檢驗。對於AMI與NMI,最佳的標簽配對對應的函數值都是0,但是MI不是,這使得MI有時難以作為判斷依據。

      對於隨機標簽,通常會獲得接近於0的AMI值。AMI的輸出范圍在[0,1]區間內,值越大表示相似程度越高。

      基於MI的測度需要ground truth,在真實環境中ground truth需要大量手工標記,通常難以獲得。但這並不意味着MI在無監督學習中一無是處。在純的無監督學習中,基於MI的測度可以作為一致性指標的構建模塊,用於聚類模型選擇,用於純無監督學習。

      NMI與MI沒有針對機會做調整(這個“機會”令我費解,要調研一下)。

基於MI的評價指標的數學公式

      假設對於N個樣本,存在兩種標簽分配策略,分別記做U,V。信息熵是一種信息不確定性的測度,定義如下:

 

 

  其中  表示從U中隨機選取一個樣本屬於類別 U_i 的概率。同理有:

 

 

  其中  。U和V的互信息計算公式如下:

 

 

  其中,是隨機選取的樣本同時屬於U_i與V_j的概率。

  NMI定義如下:

 

 

  這個互信息的值經過了標准化,沒有針對機會做調整(這個“機會”令我感到很費解,還需要學習),並且會隨着聚類類別數量增加而增加,沒有考慮不同的label分配方式之間的“互信息”的實際數量。

  互信息的期望可以基於以下公式計算獲得。(略)

  AMI,調整后的互信息,定義如下:

 

參考資料

scikit-learn模塊中的MI指標說明(包括定義、公式、代碼、例程等)

http://scikit-learn.org/stable/modules/clustering.html#mutual-information-based-scores

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM