聚類算法的衡量指標

混淆矩陣

con = confusion_matrix(y_test,y_pred)
import matplotlib.pyplot as plt
cmap = plt.cm.get_cmap('RdYlBu')
plt.imshow(con,cmap = cmap)
plt.show()

一個簇中只包含一個類別的樣本，則滿足均一性；其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和):

同類別樣本被歸類到相同簇中，則滿足完整性；每個聚簇中正確分類的樣本數占該類型的總樣本數比例的和:

均一性和完整性的加權平均:

Rand index(蘭德指數)(RI)，RI取值范圍為[0,1]，值越大意味着聚類結果與真實情況越吻合:

其中C表示實際類別信息，K表示聚類結果，a表示在C與K中都是同類別的元素對數，b表示在C與K中都是不同類別的元素對數，c_2^n 表示數據集中可以組成的對數

調整蘭德系數(ARI，Adjusted Rnd Index)，ARI取值范圍[-1,1]，值越大，表示聚類結果和真實情況越吻合。從廣義的角度來將，ARI是衡量兩個數據分布的吻合程度的。

調整互信息(AMI，Adjusted Mutual Information)，類似ARI，內部使用信息熵:

簇內不相似度：計算樣本i到同簇其它樣本的平均距離為ai;ai越小，表示樣本i越應該被聚類到該簇，簇C中的所有樣本的ai的均值被稱為簇C的簇不相似度。

簇間不相似度：計算樣本i到其它簇Cj的所有樣本的平均距離bij，bi=min{bi1,bi2,...,bik}；bi越大，表示樣本i越不屬於其它簇。

輪廓系數：si值越接近1表示樣本i聚類越合理，越接近-1，表示樣本i應該分類到另外的簇中，近似為0，表示樣本i應該在邊界上；所有樣本的si的均值被成為聚類結果的輪廓系數。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 聚類算法及其評估指標聚類算法評價指標學習筆記目標檢測常用衡量指標【筆記】衡量線性回歸法的指標 MSE,RMS,MAE以及評價回歸算法 R Square 衡量系統性能的常見指標十五項指標衡量DevOps是否成功災難恢復的衡量指標RTO和RPO 聚類結果的評價指標聚類算法聚類算法