5.機器學習——DBSCAN聚類算法


1.優缺點

優點:

(1)聚類速度快且能夠有效處理噪聲點和發現任意形狀的空間聚類;

(2)與K-MEANS比較起來,不需要輸入要划分的聚類個數;

(3)聚類簇的形狀沒有偏倚;

(4)可以在需要時輸入過濾噪聲的參數。

缺點:

(1)當數據量增大時,要求較大的內存支持I/O消耗也很大;

(2)當空間聚類的密度不均勻、聚類間距差相差很大時,聚類質量較差,因為這種情況下參數MinPts和Eps選取困難。

(3)算法聚類效果依賴與距離公式選取,實際應用中常用歐式距離,對於高維數據,存在“維數災難”。

參考

2.原理

DBSCAN參數

Eps——距離閾值,該聚類算法中把距離當做密度表達,距離如何計算也很重要。

MinPts——形成一個核心點所需要最小的直接可達點數,例如改參數設置為5,Eps設置為2,那么一個核心點(包含自己)形成的條件是該核心店距離閾值2以內至少有5個點。

待聚類點分為三類:

  1. 直接可達點   核心點距離閾值內的點成為直接可達點
  2. 可達點   屬於不同核心點的直接的可達點通過核心點組成的路徑(相鄰核心點之間在各自距離閾值內)相連,那么這些直接可達點被稱為可達點
  3. 局外點    既不是核心點也不是直接可達點也不是可達點被稱為局外點,也可叫做噪聲點

3.聚類

同一組直接可達點與可達點形成一個類簇,局外點形成噪聲點

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM