聚類結果的評價指標


在看一篇論文,其中提到了purity,NMI,ARI,平時只是見到過,具體的含義並不知道,所以就百度整理了下~~

看到了兩篇博客,感興趣的可以看一下~~http://blog.csdn.net/itplus/article/details/10322361   http://blog.csdn.net/sinat_33363493/article/details/52496011

  

首先看一個例子(PS:別人的~~)認為x代表一類文檔,o代表一類文檔,方框代表一類文檔,聚成了3個cluster,現在要對聚類的結果進行評價

一、purity(純度)

purity--正確聚類的文檔數占總文檔的比例  其中N代表總文檔數,Wk代表第k個聚類簇,C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個文檔

例如上面的例子,purity= ( 5+4+3) / 17 = 0.71  第一個cluster正確的有5個,第二個cluster正確的有4個,第3個cluster正確的有3個

這個方法計算簡單,值在0~1之間,完全錯誤值為0,完全正確值為1.

二、Entropy(熵)

對於一個聚類i,首先計算指的是聚類 i 中的成員(member)屬於類(class)j 的概率,。其中是在聚類 i 中所有成員的個數,是聚類 i 中的成員屬於類 j 的個數。

每個聚類的entropy可以表示為,其中L是類(class)的個數。

整個聚類划分的entropy為,其中K是聚類(cluster)的數目,m是整個聚類划分所涉及到的成員個數

例如上面的例子e1=-{1/6log2(1/6)}  e2=-{1/6log2(1/6)+1/6log2(1/6)} e3={2/5log2(2/5)}  整個聚類划分的entropy=(6/17)e1+(6/17)e2+(5/17)e3

三、Accuracy(准確率)

  比較每一條聚類結果是否和真是的結果一致   其中N表示文檔總數,Ncor表示正確聚類的文檔數   准確率和純度計算一樣。

四、NMI(歸一化互信息)

互信息指的是兩個隨機變量之間的關聯程度 如下公式計算

 

標准互信息是將互信息歸一化0~1,通常是除以最大熵

五、ARI(調整蘭德指數)

                                          

      其中C表示實際類別信息,K表示聚類結果,a表示在C與K中都是同類別的元素對數,b表示在C與K中都是不同類別的元素對數

      其中表示數據集中可以組成的對數,RI取值范圍為[0,1],值越大意味着聚類結果與真實情況越吻合。

      RI越大表示聚類效果准確性越高 同時每個類內的純度越高

      為了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德系數(Adjusted rand index)被提出,它具有更高的區分度:

                                    

     ARI取值范圍為[−1,1],值越大意味着聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個數據分布的吻合程度。

 

這只是幾個指標,聚類結果評價的指標還有很多個。整理論文中提到的幾個~~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM