怎樣評價聚類結果好壞？ - 碼上歡樂

相關內容簡體繁體

怎樣評價聚類結果好壞？

本文轉載自查看原文 2013-09-13 10:54 6897

聚類定義回顧：把一個文檔集合根據文檔的相似性把文檔分成若干類，究竟分成多少類，這個要取決於文檔集合里文檔自身的性質。

　回答1：

　基於不同算法，會有不同指標，通常較通用的應該一定都會有 Entropy 熵和 Accuracy, （Accuracy 里可以包含了precision, recall, f-measure.）
假設我們使用k-means算法，通常會加上 SSE （Sum of squared errors ）平方誤差和，其他算法會有不同指標。
總體思想為一個cluster聚類內的數據點聚集在一起的密度越高， 圈子越小，離centroid中心點越近，那么這個聚類的總體質量 相對來說就會越好。

回答2:

聚類的評估也需要預先標注，把相似的數據放到一個堆（文件）里。算法完成后再進行測試，主要測試宏觀准確度，宏觀召回率，宏觀混雜度。

回答3：

　　可以參考分類的precision和recall來進行評價，使用 pair-wised 的方式（？？）進行計算，比如任選取兩個結果，看它們是否應該在一起，在一起就是T，不在一起就是F。
其他的方法有 Rand Value和 Purity，其中Rand Value也是基於pair-wised的。

具體聚類效果評估方法列舉介紹：

評價方法一：purity

purity方法是極為簡單的一種聚類評價方法，只需計算正確聚類的文檔數占總文檔數的比例：

其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個聚類的集合。C = {c1, c2, . . . , cJ}是文檔集合，cJ表示第J個文檔。N表示文檔總數。

如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71

其中第一類正確的有5個，第二個4個，第三個3個，總文檔數17。

purity方法的優勢是方便計算，值在0～1之間，完全錯誤的聚類方法值為0，完全正確的方法值為1。同時，purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價，設想如果聚類算法把每篇文檔單獨聚成一類，那么算法認為所有文檔都被正確分類，那么purity值為1！而這顯然不是想要的結果。

評價方法二：RI

實際上這是一種用排列組合原理來對聚類進行評價的手段，公式如下：

其中TP是指被聚在一類的兩個文檔被正確分類了，TN是只不應該被聚在一類的兩個文檔被正確分開了，FP只不應該放在一類的文檔被錯誤的放在了一類，FN只不應該分開的文檔被錯誤的分開了。對上圖

TP＋FP ＝ C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個的組合數。

TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20

FP = 40 - 20 = 20

相似的方法可以計算出TN = 72 FN = 24

所以RI ＝ ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68

評價方法三：F值

這是基於上述RI方法衍生出的一個方法，

RI方法有個特點就是把准確率和召回率看得同等重要，事實上有時候我們可能需要某一特性更多一點，這時候就適合F值方法

評價方法4：熵：

參考：http://blog.csdn.net/luoleicn/article/details/5350378

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何評價模型的好壞（二）如何評價模型的好壞（三）聚類效果評價指標 sklearn聚類評價指標聚類評價指標聚類評價指標(Clustering Metrics) [翻譯]localStorage性能的好壞訓練模型和衡量模型的好壞如何判斷一個哈希函數的好壞 Kmeans聚類與層次聚類

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM