【原創】各種聚類算法對比

本文轉載自查看原文 2015-07-23 17:32 4034 data mining

像上一篇文章《聚類思想分析》所述，聚類算法無所謂好壞，重點在於合理使用各類算法達到最優效果。

--------------------------------------------------------------------------------------------------------

下面所述算法都是各類算法原型，不含變形。

1. 划分聚類 VS 模糊聚類

以Kmeans和FCM算法為例：

FCM是Kmeans的改進，由硬性隸屬關系提升為軟性隸屬。

FCM的優勢：

軟性隸屬后，由於每個值對各類中心點都有貢獻，因此中心點的迭代更易達到全局最優。

依據：

Kmeans的優化目標：中心迭代公式：

FCM的優化目標：中心迭代公式：

FCM相對Kmeans的優點： 1）中心迭代更合理。 2）魯棒離群點

FCM相對Kmeans的缺點：計算復雜度更高

同樣，FCM和Kmeans有同樣的缺點。

2. 層次聚類 VS 密度聚類

以底上的層次聚類和DBSCAN算法為例：

DBSCAN的優勢：

1. 速度快 kN vs log(N)*N^2

2. 基於事件密度更優於基於距離的自發現

DBSCAN的劣勢：

參數難以控制，對聚類效果影響大。也可以說是參數敏感。

即：

因為DBSCAN使用簇的基於密度的定義，因此它是相對抗噪音的，並且能處理任意形狀和大小的簇。但是如果簇的密度變化很大，例如ABCD四個簇，AB的密度大大大於CD，而且AB附近噪音的密度與簇CD的密度相當，這是當MinPs較大時，無法識別簇CD，簇CD和AB附近的噪音都被認為是噪音；當MinPs較小時，能識別簇CD，但AB跟其周圍的噪音被識別為一個簇。