輪廓系數:
輪廓系數(Silhouette Coefficient)結合了聚類的凝聚度(Cohesion)和分離度(Separation),用於評估聚類的效果。該值處於-1~1之間,值越大,表示聚類效果越好。具體計算方法如下:
- 對於每個樣本點i,計算點i與其同一個簇內的所有其他元素距離的平均值,記作a(i),用於量化簇內的凝聚度。
- 選取i外的一個簇b,計算i與b中所有點的平均距離,遍歷所有其他簇,找到最近的這個平均距離,記作b(i),即為i的鄰居類,用於量化簇之間分離度。
- 對於樣本點i,輪廓系數s(i) = (b(i) – a(i))/max{a(i),b(i)}
- 計算所有i的輪廓系數,求出平均值即為當前聚類的整體輪廓系數,度量數據聚類的緊密程度
從上面的公式,不難發現若s(i)小於0,說明i與其簇內元素的平均距離小於最近的其他簇,表示聚類效果不好。如果a(i)趨於0,或者b(i)足夠大,即a(i)<<b(i),那么s(i)趨近與1,說明聚類效果比較好。