DBSCAN密度聚類算法

本文轉載自查看原文 2017-04-05 20:32 6207

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法)是一種很典型的密度聚類算法，和K-Means，BIRCH這些一般只適用於凸樣本集的聚類相比，DBSCAN既可以適用於凸樣本集，也可以適用於非凸樣本集。下面我們就對DBSCAN算法的原理做一個總結。

1. 密度聚類原理

　　　　DBSCAN是一種基於密度的聚類算法，這類密度聚類算法一般假定類別可以通過樣本分布的緊密程度決定。同一類別的樣本，他們之間的緊密相連的，也就是說，在該類別任意樣本周圍不遠處一定有同類別的樣本存在。

　　　　通過將緊密相連的樣本划為一類，這樣就得到了一個聚類類別。通過將所有各組緊密相連的樣本划為各個不同的類別，則我們就得到了最終的所有聚類類別結果。

2. DBSCAN密度定義

　　　　在上一節我們定性描述了密度聚類的基本思想，本節我們就看看DBSCAN是如何描述密度聚類的。DBSCAN是基於一組鄰域來描述樣本集的緊密程度的，參數(

　　　　假設我的樣本集是D=

　　　　1）

　　　　2) 核心對象：對於任一樣本

　　　　3）密度直達：如果

　　　　4）密度可達：對於

　　　　5）密度相連：對於

　　　　從下圖可以很容易看出理解上述定義，圖中MinPts=5，紅色的點都是核心對象，因為其

　　　　有了上述定義，DBSCAN的聚類定義就簡單了。

3. DBSCAN密度聚類思想

　　　　DBSCAN的聚類定義很簡單：由密度可達關系導出的最大密度相連的樣本集合，即為我們最終聚類的一個類別，或者說一個簇。

　　　　這個DBSCAN的簇里面可以有一個或者多個核心對象。如果只有一個核心對象，則簇里其他的非核心對象樣本都在這個核心對象的

　　　　那么怎么才能找到這樣的簇樣本集合呢？DBSCAN使用的方法很簡單，它任意選擇一個沒有類別的核心對象作為種子，然后找到所有這個核心對象能夠密度可達的樣本集合，即為一個聚類簇。接着繼續選擇另一個沒有類別的核心對象去尋找密度可達的樣本集合，這樣就得到另一個聚類簇。一直運行到所有核心對象都有類別為止。

　　　　基本上這就是DBSCAN算法的主要內容了，是不是很簡單？但是我們還是有三個問題沒有考慮。

　　　　第一個是一些異常樣本點或者說少量游離於簇外的樣本點，這些點不在任何一個核心對象在周圍，在DBSCAN中，我們一般將這些樣本點標記為噪音點。

　　　　第二個是距離的度量問題，即如何計算某樣本和核心對象樣本的距離。在DBSCAN中，一般采用最近鄰思想，采用某一種距離度量來衡量樣本距離，比如歐式距離。這和KNN分類算法的最近鄰思想完全相同。對應少量的樣本，尋找最近鄰可以直接去計算所有樣本的距離，如果樣本量較大，則一般采用KD樹或者球樹來快速的搜索最近鄰。如果大家對於最近鄰的思想，距離度量，KD樹和球樹不熟悉，建議參考之前寫的另一篇文章K近鄰法(KNN)原理小結。

　　　　第三種問題比較特殊，某些樣本可能到兩個核心對象的距離都小於

4. DBSCAN聚類算法

　　　　下面我們對DBSCAN聚類算法的流程做一個總結。

　　　　輸入：樣本集D=

　　　　輸出：簇划分C.　

　　　　1）初始化核心對象集合

　　　　2) 對於j=1,2,...m, 按下面的步驟找出所有的核心對象：

　　　　　　a) 通過距離度量方式，找到樣本

　　　　　　b) 如果子樣本集樣本個數滿足

　　　　3）如果核心對象集合

　　　　4）在核心對象集合

　　　　5）如果當前簇核心對象隊列

　　　　6）在當前簇核心對象隊列

　　　　輸出結果為：簇划分C=

5. DBSCAN小結

　　　　和傳統的K-Means算法相比，DBSCAN最大的不同就是不需要輸入類別數k，當然它最大的優勢是可以發現任意形狀的聚類簇，而不是像K-Means，一般僅僅使用於凸的樣本集聚類。同時它在聚類的同時還可以找出異常點，這點和BIRCH算法類似。

　　　　那么我們什么時候需要用DBSCAN來聚類呢？一般來說，如果數據集是稠密的，並且數據集不是凸的，那么用DBSCAN會比K-Means聚類效果好很多。如果數據集不是稠密的，則不推薦用DBSCAN來聚類。

　　　　下面對DBSCAN算法的優缺點做一個總結。

　　　　DBSCAN的主要優點有：

　　　　1）可以對任意形狀的稠密數據集進行聚類，相對的，K-Means之類的聚類算法一般只適用於凸數據集。

　　　　2）可以在聚類的同時發現異常點，對數據集中的異常點不敏感。

　　　　3）聚類結果沒有偏倚，相對的，K-Means之類的聚類算法初始值對聚類結果有很大影響。

　　　　DBSCAN的主要缺點有：

　　　　1）如果樣本集的密度不均勻、聚類間距差相差很大時，聚類質量較差，這時用DBSCAN聚類一般不適合。

　　　　2）如果樣本集較大時，聚類收斂時間較長，此時可以對搜索最近鄰時建立的KD樹或者球樹進行規模限制來改進。

　　　　3）調參相對於傳統的K-Means之類的聚類算法稍復雜，主要需要對距離閾值

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 DBSCAN密度聚類算法基於密度的聚類之Dbscan算法 DBSCAN密度聚類算法密度聚類 - DBSCAN算法聚類算法---kmeans以及DBSCAN算法基於密度的optics聚類算法 KdTree密度的聚類算法及優化常見聚類算法——K均值、凝聚層次聚類和DBSCAN比較密度峰值聚類算法MATLAB程序 DBSCAN聚類算法——機器學習（理論+圖解+python代碼）