聚類算法評價指標學習筆記

本文列舉常用聚類性能度量指標，並列出相應代碼與參考資料

聚類性能度量大致分兩類，一類將聚類結果與某個“參考模型”（reference model）進行比較，稱為“外部指標”（external index）；另一類是直接考察聚類結果而不利用任何參考模型，稱為“內部指標”（internal index）。（機器學習，周志華）。本文主要針對聚類算法的外部指標做總結。

與分類不同，聚類算法獲取的類別標簽具有不確定性，不能直接基於ground truth獲得類似於分類算法的錯誤率、召回率、精度等評價指標。聚類算法通常將樣本兩兩配對，再做進一步計算與評價。通過聚類給出的簇划分為C，參考模型（ground truth）給出的簇划分為K，通常K與C給出的簇類別數量不相同。定義a, b, c, d如下：

a: 在C中屬於同一類別且在K中屬於同一類別的樣本對數量

b: 在C中屬於同一類別且在K中屬於不同類別的樣本對數量

c: 在C中屬於不同類別且在K中屬於同一類別的樣本對數量

d: 在C中屬於不同類別且在K中屬於不同類別的樣本對數量

記總樣本數量為m，顯而易見

由上文可導出常用聚類性能度量外部指標：

Jaccard 系數（Jaccard Coefficient，簡稱JC）

FM指數（Fowlkes and Mallows Index，簡稱FMI）

Rand指數（Rand Index，簡稱RI）

顯然，上述性能度量的結果值均在 [0,1] 區間，值越大越好。

V-measure

V-measure 是同質性（homogeneity）和完整性（completeness）的調和平均數，

這個測度獨立於label的絕對值，調整類別標簽或聚類標簽的值不會改變測度結果。
這個測度關於類別標簽與聚類標簽對稱，交換類別標簽與聚類標簽不會使得測度結果發生變化。
當類別標簽未知時，這種測度方法還可以用來比較兩種標記策略的相似程度。
V-measure取值在[0,1]區間內，值越大相似程度越高。

Mutual information

　　已知聚類標簽與真實標簽，互信息（mutual information）能夠測度兩種標簽排列之間的相關性，同時忽略標簽中的排列。有兩種不同版本的互信息以供選擇，一種是Normalized Mutual Information（NMI）,一種是Adjusted Mutual Information（AMI）。比起最近才提出的AMI，更早提出的NMI更頻繁地應用於文獻中。

　　MI、NMI、AMI都是對稱函數，交換變量不改變函數值，因此可以用做一致性檢驗。對於AMI與NMI，最佳的標簽配對對應的函數值都是0，但是MI不是，這使得MI有時難以作為判斷依據。

對於隨機標簽，通常會獲得接近於0的AMI值。AMI的輸出范圍在[0,1]區間內，值越大表示相似程度越高。

基於MI的測度需要ground truth，在真實環境中ground truth需要大量手工標記，通常難以獲得。但這並不意味着MI在無監督學習中一無是處。在純的無監督學習中，基於MI的測度可以作為一致性指標的構建模塊，用於聚類模型選擇，用於純無監督學習。

NMI與MI沒有針對機會做調整(這個“機會”令我費解，要調研一下)。