聚類效果評價指標


1. ARI(Adjusted Rand Index) 蘭德系數:聚類效果有一個評價指標。

  這個指標不考慮你使用的聚類方法,把你的方法當做一個黑箱,只注重結果。可以說,是一個十分“功利”的指標。

  

  在講ARI之前呢,先講述一下RI,也就是rand index,從兩者的名字也可以看出來,這是ARI的祖宗版。

    

 

 

 

這里,我們解釋一下a,b,c,d分別代表什么。a呢就是說應該在一類,你最后聚類到一類的數量,b呢就是不應該在一類 ,你最后聚類結果也沒把他們聚類在一起的數量。c和d那么就是應該在一起而被分開的和不應該在一起而被迫住在一起的。畢竟強扭的瓜不甜,c和d固然是錯誤的。所以從R的表達式中可以看出,我們只認為a和b是對的,這樣能夠保證R在0到1之間,而且,聚類越准確,指標越接近於1.

這里有一個關鍵性的問題,就是什么叫數量?你怎么去計算?准確的說,是配對的數量。比如說a是應該在一起而真的幸福的在一起了的數量,這顯然就應該像人類一樣按照小夫妻數量計算,但是我們的樣本可不管一夫一妻制,任意選兩個就是一個配對,所以,就是n(n-1)/2這樣來計算,也就是組合數,n個當中選兩個的選法。同時我們看到,分母其實是所有配對的總和。

 

2.輪廓系數:聚類評估指標

  

  好的聚類:內密外疏,同一個聚類內部的樣本要足夠密集,不同聚類之間樣本要足夠疏遠。輪廓系數的值是介於 [-1,1] ,越趨近於1代表內聚度和分離度都相對較優。

   輪廓系數計算規則:

1)對於簇中的每個向量,分別計算它們的輪廓系數。

      對於其中的一個點 i 來說:

      計算 簇內不相似度a(i) :i向量到同簇內其他點不相似程度的平均值,體現凝聚度

      計算 簇間不相似度b(i) :i向量到其他簇的平均不相似程度的最小值,體現分離度

      那么第i個對象的輪廓系數就為:

 

      si接近1,則說明樣本i聚類合理;si接近-1,則說明樣本i更應該分類到另外的簇;若si 近似為0,則說明樣本i在兩個簇的邊界上。

2)將所有點的輪廓系數求平均,就是該聚類結果總的輪廓系數。

 

3.R2 (判斷聚類是否應該停止了)

  

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM