1、概述
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基於密度的聚類方法)是一種很典型的密度聚類算法.和K-Means,BIRCH這些一般只適用於凸樣本集的聚類相比,DBSCAN既可以適用於凸樣本集,也可以適用於非凸樣本集。DBSCAN算法的顯著優點是聚類速度快且能夠有效處理噪聲點和發現任意形狀的空間聚類。
該算法利用基於密度的聚類的概念,即要求聚類空間中的一定區域內所包含對象(點或其他空間對象)的數目不小於某一給定閾值。過濾低密度區域,發現稠密度樣本點。同一類別的樣本,他們之間的緊密相連的,也就是說,在該類別任意樣本周圍不遠處一定有同類別的樣本存在。
2、基本定義
假設我的樣本集是D=(x1,x2,...,xm),則DBSCAN具體的密度描述定義如下:

以下我們用圖形直觀的理解一下。圖中MinPts=5,紅色的點都是核心對象,因為其ϵ-鄰域至少有5個樣本。黑色的樣本是非核心對象。所有核心對象密度直達的樣本在以紅色核心對象為中心的超球體內,如果不在超球體內,則不能密度直達。圖中用綠色箭頭連起來的核心對象組成了密度可達的樣本序列。在這些密度可達的樣本序列的ϵ-鄰域內所有的樣本相互都是密度相連的。

3、DBSCAN密度聚類思想
DBSCAN的聚類定義:由密度可達關系導出的最大密度相連的樣本集合,即為我們最終聚類的一個類別,或者說一個簇。
那么怎么才能找到這樣的簇樣本集合呢?DBSCAN使用的方法很簡單,它任意選擇一個沒有類別的核心對象作為種子,然后找到所有這個核心對象能夠密度可達的樣本集合,即為一個聚類簇。接着繼續選擇另一個沒有類別的核心對象去尋找密度可達的樣本集合,這樣就得到另一個聚類簇。一直運行到所有核心對象都有類別為止。
但是我們還是有三個問題沒有考慮。
-
第一個是一些異常樣本點或者說少量游離於簇外的樣本點,這些點不在任何一個核心對象在周圍,在DBSCAN中,我們一般將這些樣本點標記為噪音點。
-
第二個是距離的度量問題,即如何計算某樣本和核心對象樣本的距離。在DBSCAN中,一般采用最近鄰思想,采用某一種距離度量來衡量樣本距離,比如歐式距離。這和KNN分類算法的最近鄰思想完全相同。對應少量的樣本,尋找最近鄰可以直接去計算所有樣本的距離,如果樣本量較大,則一般采用KD樹或者球樹來快速的搜索最近鄰。如果大家對於最近鄰的思想,距離度量,KD樹和球樹不熟悉,建議參考之前寫的另一篇文章K近鄰法(KNN)原理小結。
-
第三種問題比較特殊,某些樣本可能到兩個核心對象的距離都小於ϵ,但是這兩個核心對象由於不是密度直達,又不屬於同一個聚類簇,那么如果界定這個樣本的類別呢?一般來說,此時DBSCAN采用先來后到,先進行聚類的類別簇會標記這個樣本為它的類別。也就是說DBSCAN的算法不是完全穩定的算法。
4、DBSCAN聚類算法流程
下面我們對DBSCAN聚類算法的流程做一個總結。

5、scikit-learn中的DBSCAN類
(1) 參數介紹
DBSCAN算法類為sklearn.cluster.DBSCAN,重要參數也分為兩類,一類是DBSCAN算法本身的參數,一類是最近鄰度量的參數。
1)eps: DBSCAN算法參數,即我們的ϵ-鄰域的距離閾值,和樣本距離超過ϵ的樣本點不在ϵ-鄰域內。默認值是0.5.一般需要通過在多組值里面選擇一個合適的閾值。eps過大,則更多的點會落在核心對象的ϵ-鄰域,此時我們的類別數可能會減少, 本來不應該是一類的樣本也會被划為一類。反之則類別數可能會增大,本來是一類的樣本卻被划分開。
2)min_samples: DBSCAN算法參數,即樣本點要成為核心對象所需要的ϵ-鄰域的樣本數閾值。默認值是5. 一般需要通過在多組值里面選擇一個合適的閾值。通常和eps一起調參。在eps一定的情況下,min_samples過大,則核心對象會過少,此時簇內部分本來是一類的樣本可能會被標為噪音點,類別數也會變多。反之min_samples過小的話,則會產生大量的核心對象,可能會導致類別數過少。
3)metric:最近鄰距離度量參數。可以使用的距離度量較多,一般來說DBSCAN使用默認的歐式距離(即p=2的閔可夫斯基距離)就可以滿足我們的需求。可以使用的距離度量參數有:

4)algorithm:最近鄰搜索算法參數,一共有4種可選輸入,‘brute’對應第一種蠻力實現,‘kd_tree’對應第二種KD樹實現,‘ball_tree’對應第三種的球樹實現, ‘auto’則會在上面三種算法中做權衡,選擇一個擬合最好的最優算法。一般情況使用默認的 ‘auto’就夠了。 (如果數據量很大或者特征也很多,用"auto"建樹時間可能會很長,效率不高,建議選擇KD樹實現‘kd_tree’,此時如果發現‘kd_tree’速度比較慢或者已經知道樣本分布不是很均勻時,可以嘗試用‘ball_tree’。而如果輸入樣本是稀疏的,無論你選擇哪個算法最后實際運行的都是‘brute’。)
5)leaf_size:最近鄰搜索算法參數,為使用KD樹或者球樹時, 停止建子樹的葉子節點數量的閾值。
6) p: 最近鄰距離度量參數。只用於閔可夫斯基距離和帶權重閔可夫斯基距離中p值的選擇,p=1為曼哈頓距離, p=2為歐式距離。如果使用默認的歐式距離不需要管這個參數。
其實需要調參的就是兩個參數eps和min_samples,這兩個值的組合對最終的聚類效果有很大的影響。
(2) 代碼實現
首先,我們生成一組隨機數據,為了體現DBSCAN在非凸數據的聚類優點,我們生成了三簇數據,兩組是非凸的。代碼如下:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
%matplotlib inline
X1, y1=datasets.make_circles(n_samples=5000, factor=.6,
noise=.05)
X2, y2 = datasets.make_blobs(n_samples=1000, n_features=2, centers=[[1.2,1.2]], cluster_std=[[.1]],
random_state=9)
X = np.concatenate((X1, X2))
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()

首先我們看看K-Means的聚類效果,K-Means對於非凸數據集的聚類表現不好,從上面代碼輸出的聚類效果圖可以明顯看出。
from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

那么如果使用DBSCAN效果如何呢?我們先不調參,直接用默認參數,看看聚類效果。發現輸出聚類的類別只有一個。
from sklearn.cluster import DBSCAN
y_pred = DBSCAN().fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

看來我們需要對DBSCAN的兩個關鍵的參數eps和min_samples進行調參!從上圖我們可以發現,類別數太少,我們需要增加類別數,那么我們可以減少ϵ-鄰域的大小,默認是0.5,我們減到0.1。增大min_samples的數量,從默認的5增加到10。
y_pred = DBSCAN(eps = 0.1, min_samples = 10).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

可見現在聚類效果基本已經可以讓我們滿意了。
6、DBSCAN算法優缺點
和傳統的K-Means算法相比,DBSCAN最大的不同就是不需要輸入類別數k,當然它最大的優勢是可以發現任意形狀的聚類簇,而不是像K-Means,一般僅僅使用於凸的樣本集聚類。同時它在聚類的同時還可以找出異常點,這點和BIRCH算法類似。
那么我們什么時候需要用DBSCAN來聚類呢?一般來說,如果數據集是稠密的,並且數據集不是凸的,那么用DBSCAN會比K-Means聚類效果好很多。如果數據集不是稠密的,則不推薦用DBSCAN來聚類。
下面對DBSCAN算法的優缺點做一個總結。
DBSCAN的主要優點有:
1) 可以對任意形狀的稠密數據集進行聚類,相對的,K-Means之類的聚類算法一般只適用於凸數據集。
2) 可以在聚類的同時發現異常點,對數據集中的異常點不敏感。
3) 聚類結果沒有偏倚,相對的,K-Means之類的聚類算法初始值對聚類結果有很大影響。
DBSCAN的主要缺點有:
1)如果樣本集的密度不均勻、聚類間距差相差很大時,聚類質量較差,這時用DBSCAN聚類一般不適合。
2) 如果樣本集較大時,聚類收斂時間較長,此時可以對搜索最近鄰時建立的KD樹或者球樹進行規模限制來改進。
3) 調參相對於傳統的K-Means之類的聚類算法稍復雜,主要需要對距離閾值ϵ,鄰域樣本數閾值MinPts聯合調參,不同的參數組合對最后的聚類效果有較大影響。
