常見聚類算法總結

本文轉載自查看原文 2022-01-04 20:36 3249 DL

一.關於聚類

什么是聚類：

聚類(Clustering)是按照某個特定標准(如距離)把一個數據集分割成不同的類或簇，使得同一個簇內的數據對象的相似性盡可能大，同時不在同一個簇中的數據對象的差異性也盡可能地大。也即聚類后同一類的數據盡可能聚集到一起，不同類數據盡量分離。

什么不是聚類：

● 監督分類 – 有類標簽信息（通常就叫做分類）

● 簡單分割 – 按姓氏的字母順序將學生分為不同的注冊組

● 查詢結果 – 分組是外部規范的結果

● 圖形分區 – 一些相互關聯和協同作用，但領域並不相同

聚類的種類：

按照聚類方式：

按照排他性：在排他性聚類中，點只能屬於一個聚類；在非排他性聚類中，點可能屬於多個聚類，可以表示多個類或"邊界"點。

按照模糊性：在模糊聚類中，一個點屬於每個權重在 0 到 1 之間的聚類，權重必須總和為 1，概率聚類具有相似的特點。非模糊聚類中，每個點有唯一的預測類別

按照簇的組織方式：

基於中心的集群：簇是一組對象，使得簇中的對象比任何其他簇的中心更接近（更相似）簇的“中心”，簇的中心通常是質心，即簇中所有點的平均值，或者是中心點，即簇中最具“代表性”的點

數據間的相似度度量：

閔可夫斯基距離就是Lp范數（p為正整數），而曼哈頓距離、歐式距離、切比雪夫距離分別對應

簇間相似度度量：

1）最小值：

2）最大值：

3）組平均：

4）質心距離

5）Ward 方法：基於SSE的增加（在層次聚類中越小合並效果越好）

不太容易受到噪音和異常值的影響，偏向球狀星團

評估不同聚類方案的優劣：

最常見的度量是平方誤差總和 (SSE，Sum of Square Error)，每個點距離自己所在簇的代表點（均值點）的距離之和，減少 SSE 的一種簡單方法是增加 K，集群的數量

另一種方法：方差比率

N，圖中的總點數

聚類方法的分類：

類別	包括的主要算法
划分方法	K-Means算法（均值）、K-medoids算法（中心點）、K-modes算法（眾數）、k-prototypes算法、CLARANS（基於選擇），K-Means++，bi-KMeans
層次分析	BIRCH算法（平衡迭代規約）、CURE算法（點聚類）、CHAMELEON（動態模型）,Agglomerative(凝聚式）,Divisive(分裂式)
基於密度	DBSCAN（基於高密度連接區域）、DENCLUE（密度分布函數）、OPTICS（對象排序識別）
基於網格	STING（統計信息網絡）、CLIOUE（聚類高維空間）、WAVE-CLUSTER（小波變換）
基於模型	統計學方法（比如GMM）、神經網絡（比如SOM（Self Organized Maps））
其他方法	量子聚類，核聚類，譜聚類

聚類算法之外的處理方法：

二.划分式聚類方法

k-means：

算法流程：

1.選擇K點作為初始質心

2.重復直到質心不變

（1）通過將所有點指定給最近的質心形成K簇

（2）重新計算每個簇的質心

初始質心通常是隨機選擇的，產生的集群因一次運行而異。大多數收斂發生在前幾次迭代中，因為通常將停止條件更改為“直到相對較少的點更改集群”

K值的選擇：

對 k = 1,2,4,8,... 運行 k-means 算法，找到兩個值 v 和 2v，它們之間的平均直徑幾乎沒有減少，證明的 k 值位於 v/2 和 v 之間，然后在這之間使用二分搜索

處理K-means產生的空簇：選擇對 SSE 貢獻最大的點；從具有最高 SSE 的集群中選擇一個點。並入空簇，這樣下一輪空簇的中心就會移到選的點去

舉例：

更新一輪后

增量更新中心的 K-means：在基本的 K-means 算法中，在所有點都分配給一個質心后更新質心

另一種方法是在分配一個點后更新質心（增量方法）

– 每個分配更新零個或兩個質心

– 更高代價

– 引入順序依賴

– 永遠不會得到一個空集群

– 可以使用“權重”來改變影響

bi-k-means算法：

初始只有一個cluster包含所有樣本點；

repeat:

從待分裂的clusters中選擇一個進行二元分裂，所選的cluster應使得SSE最小（可以每一個都分裂，選SSE的最小那個）；

until 有k個cluster

k-means++算法：

k-means++是針對k-means中初始質心點選取的優化算法。該算法的流程和k-means類似，改變的地方只有初始質心的選取，該部分的算法流程如下

K-means 的局限性：當集群尺寸或密度不同時，集群為非球形形狀，數據包含異常值時，K-means 可能會有問題。一種解決方案是使用大量集群，找到集群的部分，最后結合在一起（提升k值后再使用人工方法）

三.基於密度的聚類：

基於密度的聚類定位由低密度區域彼此分隔的高密度區域。

DBSCAN 算法：

核心點：在半徑 Eps 內具有超過指定數量的點 (MinPts)

邊界點：點在半徑 Eps 內少於 MinPts 個點，但在核心點的鄰域（半徑EPS的圈內）內

噪聲點：既不是核心點也不是邊界點的任何點

相距 Eps 之內的任意兩個核心點都在同一個簇中，任何在核心點半徑 Eps 內的邊界點都與核心點放在同一個簇中，丟棄所有噪聲點（DBSCAN是部分聚類方法，並非所有點都被聚類）

DBSCAN 實際上需要 O(n2) 時間，只要允許聚類結果的輕微不准確，運行時間就可以顯着降低到 O(n)

想法是對於集群中的點，它們的第k最近鄰距離大致相同；噪聲點在更遠的距離處具有第k最近鄰距離；因此，繪制每個點到其第k最近鄰距離的排序距離

由圖：3000個點里2800個第4近鄰在10以內，因此可以設置EPS=10，MinPts=4

四.層次聚類：

凝聚式聚類：

類似與凝聚式聚類的方法可以作為kmeans的質心初始化步驟

非歐空間不能選質心的問題：因為非歐空間無法求平均，可以用以下方法代替

可以選以上值最小的點作為集群的中心

分裂式聚類：

治愈算法（CURE（Clustering Using Representative））：

不是通過質心來表示集群，而是使用一組代表點。

CURE 能夠更好地處理任意形狀和大小的集群。向中心收縮代表點有助於避免噪聲和異常值問題。

合並集群的同時，剔除孤立點

cure的特點：使用了采樣減少計算量；使用多個點代表集群,可以匹配那些非球形的場景,而且收縮因子的使用可以減少噪音對聚類的影響

稀疏化鄰近圖：

（從圖的角度理解聚類）

變色龍算法：

當前合並方案的局限性：層次聚類算法中現有的合並方案本質上是靜態的

變色龍可以適應數據集特征尋找自然聚類，使用動態模型來衡量集群之間的相似性和互連性。

1. k-最近鄰圖Gk的構造（第一階段）

Gk圖中的每個點，表示數據集中的一個數據點。對於數據集中的每一個數據點找出它的所有k-最近鄰對象，然后分別在它們之間加帶權邊。

如何找k-最近鄰對象呢？？即找離該對象最近的k個對象點，

（定義：若點ai到另一個點bi的距離值是所有數據點到bi的距離值中k個最小值之一，則稱ai是bi的k-最近鄰對象。）

若一個數據點是另一個數據點的k-最近鄰對象之一，則在這兩點之間加一條帶權邊，邊的權值表示這兩個數據點之間的相似度，即距離越大邊權值越小，則近似度越小。

2.划分圖（第二階段）

所做的一件關鍵的事情就是形成小簇集，由零星的幾個數據點連成小簇，官方的作法是用hMetic算法根據最小化截斷的邊的權重和來分割k-最近鄰圖，然后我網上找了一些資料，沒有確切的hMetic算法，借鑒了網上其他人的一些辦法，於是用了一個很簡單的思路，就是給定一個點，把他離他最近的k個點連接起來，就算是最小簇了。事實證明，效果也不會太差，最近的點的換一個意思就是與其最大權重的邊，采用距離的倒數最為權重的大小。因為后面的計算，用到的會是權重而不是距離

首先是2個略復雜的公式：

相對互連性RI