聚類算法的衡量指標


聚類算法的衡量指標

混淆矩陣

con = confusion_matrix(y_test,y_pred)
import matplotlib.pyplot as plt
cmap = plt.cm.get_cmap('RdYlBu')
plt.imshow(con,cmap = cmap)
plt.show()

均一性

一個簇中只包含一個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和):

 

完整性

同類別樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正確分類的樣本數占該類型的總樣本數比例的和:

 

V-measure

均一性和完整性的加權平均:

 

調整蘭德系數(ARI)

Rand index(蘭德指數)(RI),RI取值范圍為[0,1],值越大意味着聚類結果與真實情況越吻合:

 

其中C表示實際類別信息,K表示聚類結果,a表示在C與K中都是同類別的元素對數 ,b表示在C與K中都是不同類別的元素對數,c_2^n 表示數據集中可以組成的對數

調整蘭德系數(ARI,Adjusted Rnd Index),ARI取值范圍[-1,1],值越大,表示聚類 結果和真實情況越吻合。從廣義的角度來將,ARI是衡量兩個數據分布的吻合程度的。

 

調整互信息(AMI)

調整互信息(AMI,Adjusted Mutual Information),類似ARI,內部使用信息熵:

 

輪廓系數(Silhouette)

簇內不相似度:計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇C中的所有樣本的ai的均值被稱為簇C的簇不相似度。

簇間不相似度:計算樣本i到其它簇Cj的所有樣本的平均距離bij,bi=min{bi1,bi2,...,bik};bi越大,表示樣本i越不屬於其它簇。

輪廓系數:si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓系數。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM