DBSCAN方法及應用
1.DBSCAN密度聚類簡介
DBSCAN 算法是一種基於密度的聚類算法:
1.聚類的時候不需要預先指定簇的個數
2.最終的簇的個數不確定
DBSCAN算法將數據點分為三類:
1.核心點:在半徑Eps內含有超過MinPts數目的點。
2.邊界點:在半徑Eps內點的數量小於MinPts,但是落在核心點的鄰域內的點。
3.噪音點:既不是核心點也不是邊界點的點。
如下圖所示:圖中黃色的點為邊界點,因為在半徑Eps內,它領域內的點不超過MinPts個,我們這里設置的MinPts為5;而中間白色的點之所以為核心點,是因為它鄰域內的點是超過MinPts(5)個點的,它鄰域內的點就是那些黃色的點!
2.DBSCAN算法的流程
1.將所有點標記為核心點、邊界點或噪聲點;
2.刪除噪聲點;
3.為距離在Eps之內的所有核心點之間賦予一條邊;
4.每組連通的核心點形成一個簇;
5.將每個邊界點指派到一個與之關聯的核心點的簇中(哪一個核心點的半徑范圍之內)。