ROCK 聚類算法‏


ROCK (RObust Clustering using linKs)  聚類算法‏是一種魯棒的用於分類屬性的聚類算法。該算法屬於凝聚型的層次聚類算法。之所以魯棒是因為在確認兩對象(樣本點/簇)之間的關系時考慮了他們共同的鄰居(相似樣本點)的數量,在算法中被叫做鏈接(Link)的概念。而一些聚類算法只關注對象之間的相似度。

 

ROCK 算法中用到的四個關鍵概念

  1. 鄰居(Neighbors):如果兩個樣本點的相似度達到了閾值(θ),這兩個樣本點就是鄰居。閾值(θ)有用戶指定,相似度也是通過用戶指定的相似度函數計算。常用的分類屬性的相似度計算方法有:Jaccard 系數,余弦相似度。
  2. 鏈接(Links):兩個對象的共同鄰居數量
  3. 目標函數(Criterion Function):最大化下面目標函數以獲得最優的聚類結果(最終簇之間的鏈接總數最小,而簇內的鏈接總數最大)。Ci:第i個簇,k:簇的個數,ni:Ci的大小(樣本點的數量)。一般可使用f (θ) = (1-θ)/(1+θ). f(θ)一般具有以下性質:Ci中的每個樣本點在Ci中有nif(θ)個鄰居。(具體請見參考文獻2)

4. 相似性的度量(Goodness Measure):使用該公式計算所有對象的兩兩相似度,將相似性最高的兩個對象合並。通過該相似性度量不斷的凝聚對象至k個簇,最終計算上面目標函數值必然是最大的。

,link[Ci,Cj]=

大概算法思路(偽代碼請見參考文獻2):

輸入:需要聚類的個數-k,和相似度閾值-θ

算法:

  開始每個點都是單獨的聚類,根據計算點與點間的相似度,生成相似度矩陣。

  根據相似度矩陣和相似度閾值-θ,計算鄰居矩陣-A。如果兩點相似度>=θ,取值1(鄰居),否則取值0.

  計算鏈接矩陣-L=A x A

  計算相似性的度量(Goodness Measure),將相似性最高的兩個對象合並。回到第2步進行迭代直到形成k個聚類或聚類的數量不在發生變換。

輸出:

  簇和異常值(不一定存在)

 

ROCK in R - cba 包:

 
        
load('country.RData')
d<-dist(countries[,-1])
x<-as.matrix(d)
library(cba)
rc <- rockCluster(x, n=4, theta=0.2, debug=TRUE)
rc$cl
 

參考文獻:

【1】http://www.enggjournals.com/ijcse/doc/IJCSE12-04-05-248.pdf

【2】http://www.cis.upenn.edu/~sudipto/mypapers/categorical.pdf


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM