con = confusion_matrix(y_test,y_pred) import matplotlib.pyplot as plt cmap = plt.cm.get_cmap('RdYlBu') plt.imshow(con,cmap = cmap) plt.show()


均一性
一個簇中只包含一個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和):
完整性
同類別樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正確分類的樣本數占該類型的總樣本數比例的和:
V-measure
均一性和完整性的加權平均:
調整蘭德系數(ARI)
Rand index(蘭德指數)(RI),RI取值范圍為[0,1],值越大意味着聚類結果與真實情況越吻合:
其中C表示實際類別信息,K表示聚類結果,a表示在C與K中都是同類別的元素對數 ,b表示在C與K中都是不同類別的元素對數,c_2^n 表示數據集中可以組成的對數
調整蘭德系數(ARI,Adjusted Rnd Index),ARI取值范圍[-1,1],值越大,表示聚類 結果和真實情況越吻合。從廣義的角度來將,ARI是衡量兩個數據分布的吻合程度的。
調整互信息(AMI)
調整互信息(AMI,Adjusted Mutual Information),類似ARI,內部使用信息熵:
輪廓系數(Silhouette)
簇內不相似度:計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇C中的所有樣本的ai的均值被稱為簇C的簇不相似度。
簇間不相似度:計算樣本i到其它簇Cj的所有樣本的平均距離bij,bi=min{bi1,bi2,...,bik};bi越大,表示樣本i越不屬於其它簇。
輪廓系數:si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓系數。

