聚類定義回顧: 把一個文檔集合根據文檔的相似性把文檔分成若干類,究竟分成多少類,這個要取決於文檔集合里文檔自身的性質。
假設我們使用k-means算法,通常會加上 SSE (Sum of squared errors )平方誤差和,其他算法會有不同指標。
總體思想為一個cluster聚類內的數據點聚集在一起的密度越高, 圈子越小,離centroid中心點越近,那么這個聚類的總體質量 相對來說就會越好。
其他的方法有 Rand Value和 Purity,其中Rand Value也是基於pair-wised的。
評價方法一:purity
purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類的文檔數占總文檔數的比例:
其中Ω = {ω1,ω2, . . . ,ωK}是聚類的集合ωK表示第k個聚類的集合。C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個文檔。N表示文檔總數。
如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一類正確的有5個,第二個4個,第三個3個,總文檔數17。
purity方法的優勢是方便計算,值在0~1之間,完全錯誤的聚類方法值為0,完全正確的方法值為1。同時,purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價,設想如果聚類算法把每篇文檔單獨聚成一類,那么算法認為所有文檔都被正確分類,那么purity值為1!而這顯然不是想要的結果。
評價方法二:RI
實際上這是一種用排列組合原理來對聚類進行評價的手段,公式如下:
其中TP是指被聚在一類的兩個文檔被正確分類了,TN是只不應該被聚在一類的兩個文檔被正確分開了,FP只不應該放在一類的文檔被錯誤的放在了一類,FN只不應該分開的文檔被錯誤的分開了。對上圖
TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個的組合數。
TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20
FP = 40 - 20 = 20
相似的方法可以計算出TN = 72 FN = 24
所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
評價方法三:F值
這是基於上述RI方法衍生出的一個方法,
RI方法有個特點就是把准確率和召回率看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合F值方法
評價方法4:熵: