聚類評價指標


 一、引言

  如圖認為x代表一類文檔,o代表一類文檔,方框代表一類文檔,完美的聚類顯然是應該把各種不同的圖形放入一類,事實上我們很難找到完美的聚類方法,各種方法在實際中難免有偏差,所以我們才需要對聚類算法進行評價看我們采用的方法是不是好的算法。

二、評價准則

  2.1 purity

  1)purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類的文檔數占總文檔數的比例:

  其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個聚類的集合。C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個文檔。N表示文檔總數。

  如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71

  其中第一類正確的有5個,第二個4個,第三個3個,總文檔數17。

  purity方法的優勢是方便計算,值在0~1之間,完全錯誤的聚類方法值為0,完全正確的方法值為1。同時,purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價,設想如果聚類算法把每篇文檔單獨聚成一類,那么算法認為所有文檔都被正確分類,那么purity值為1!而這顯然不是想要的結果。

  2)另一種表述:使用上述Entropy中的定義,我們將聚類 i 的purity定義為。整個聚類划分的purity為,其中K是聚類(cluster)的數目,m是整個聚類划分所涉及到的成員個數。

  2.2 RI

  實際上這是一種用排列組合原理來對聚類進行評價的手段,公式如下:

  其中TP是指被聚在一類的兩個文檔被正確分類了,TN是只不應該被聚在一類的兩個文檔被正確分開了,FP只不應該放在一類的文檔被錯誤的放在了一類,FN只不應該分開的文檔被錯誤的分開了。對上圖

TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40,其中C(n,m)是指在m中任選n個的組合數。

TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20

FP = 40 - 20 = 20

  相似的方法可以計算出TN = 72 FN = 24

  所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68

  2.3 F-measure

  評價方法三:F值

  這是基於上述RI方法衍生出的一個方法,

  RI方法有個特點就是把准確率和召回率看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合F值方法

  2.4 Entropy

  對於一個聚類i,首先計算指的是聚類 i 中的成員(member)屬於類(class)j 的概率,。其中是在聚類 i 中所有成員的個數,是聚類 i 中的成員屬於類 j 的個數。每個聚類的entropy可以表示為,其中L是類(class)的個數。整個聚類划分的entropy為,其中K是聚類(cluster)的數目,m是整個聚類划分所涉及到的成員個數。

 三、實例分析

  下表是對取自洛杉磯時報的3204篇文章進行的k-means划分的結果,共分為6個cluster。這些文章取自娛樂、金融等六個類別。理想情況下每個cluster只含有某一特定類別的文章。其中,cluster 3 與體育類別吻合的比較好,所以其entropy很低,purity很高。

五、參考文獻

  http://blog.csdn.net/luoleicn/article/details/5350378

  http://blog.csdn.net/vernice/article/details/46467449


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM