增量聚類算法


目前有關增量聚類的研究主要是將增量數據看成是時間序列數據或按特定順序的數據, 主要可以分成兩類: 一類是每次將所有數據進行迭代,即從第一個數據到最后一個數據進行迭代運算, 其優點是精度高, 不足之處是不能利用前一次聚類的結果, 浪費資源; 另一類是利用上一次聚類的結果,每次將一個數據點划分到已有簇中, 即新增的數據點被划入中心離它最近的簇中並將中心移向新增的數據點, 也就是說新增的數據點不會影響原有划分, 其優點是不需要每次對所有數據進行重新聚類, 不足之處是泛化能力弱, 監測不出孤立點。因此, 如何設計增量聚類算法以提高聚類效率, 成為當前聚類分析的一個重要挑戰。

目前存在各種各樣的聚類方法[ 3] , 傳統的聚類方法主要被划分成五類: 基於層次的、基於划分的、基於密度的、基於網格的和基於模型的聚類。基於層次的聚類和基於划分的聚類是實際生活中應用最為廣泛的兩類。前者可以進一步划分為自底向上和自頂向下兩種[ 1] , 例如CLIQUE[ 3] 、ENCLUS 和MAFIA[ 4] 屬於自底向上算法, PROCLUS[ 5] 和ORCLUS[ 6 ]屬於自頂向下的算法。但是, 傳統的層次聚類算法由於計算量過大不適用於大數據集, 例如BIRCH[ 2] 和CURE[ 7 ] 。傳統的基於划分的算法包括k-means、k-modes等等, 其中k-means是現存聚類算法中最經典的聚類算法[ 8, 9] 。

增量聚類是維持或改變k 個簇的結構的問題。比如, 一個特定序列中的新的數據點可能被划分到已有k 個簇的一個簇中, 也可能被划分到新的簇中,此時會需要將另外兩個簇變成一個[ 10 ] 。自從H art igan在文獻[ 11]中提出的算法被實現[ 12] , 增量聚類就吸引了眾人的關注。D. Fisher[ 13] 提出的COBWEB 算法是一種涉及到增量形式數據點的增量聚類算法。文獻[ 14, 15]中給出了與數據庫的動態方面相關的增量聚類的詳細闡述, 文獻[ 16􀀁 18]中列出了其廣泛應用的領域。對增量聚類產生興趣的動力是主存空間有限, 有些信息不需要存儲起來,例如數據點之間的距離, 同時增量聚類算法可以根據數據點集的大小和屬性數進行擴展[ 19] 。文獻[ 10, 17]中也對於求解增量聚類問題的算法進行了研究。
現在很多聚類算法都是對單一數據類型的數據進行聚類, 但是現實數據中非常多的數據都是混合數據類型的數據, 既包含數值屬性數據, 還是分類屬性數據, 簡單地丟棄其中一種數據類型, 或者將其中一種數據類型轉換成另一種, 都會影響聚類的精度。因此, 混合屬性數據增量聚類的研究具有非常重要的意義。
2 基於傳統聚類方法及其變形的增量聚類算法
 現在對於增量聚類方法的增量處理主要集中在三個方面, 一類是基於傳統聚類方法及其各種變形的增量聚類算法, 一類是基於生物智能的增量聚類算法, 另一類是針對數據流的聚類算法。
2. 1 方法概述
有的傳統聚類方法同樣適用於增量模式的聚類, 如BR ICH 和COBWEB 算法。也有些是在傳統聚類算法的基礎進行了變形, 來滿足增量聚類的需要。文獻[ 20]中首次提出了增量聚類的概念, 也就是增量的DBSCAN, 它是基於DBSCAN 的基礎上提出的。由於DBSCAN 算法是基於密度的特性, 插入或刪除一個新的數據點只影響當前聚類中近鄰該點的簇, 這種方法的優點是它的聚類結果和非增量聚類的結果相似, 但是它的不足是只能一個一個的划分數據點, 從而導致聚類的效率很低。文獻[ 21]
中提出了基於網格的增量聚類, 其類似於增量的DBSCAN。Huang和Zou與Xu和X ie[ 22, 23] 采用批量處理的基於密度的增量聚類, 克服了一個一個處理數據的缺點, 以批量的形式處理數據, 但是用這種聚類方法由於計算量過大而不能用於大數據集。
文獻[ 24]中描述了一種高效的基於密度的增量聚類算法, 利用划分和抽樣技術來處理大數據集, 在划分高維數據時會產生抽樣誤差。
Chen等[ 25] 依據物理學中的重力理論提出了一種增量的層次聚類, 即GRIN 算法。該算法分為兩個階段, 首先, 它把到達的增量數據緩沖在一個數據池中, 從池中選出一些樣本數據對其建立樹狀圖( dendrogram ), 刪除包含數量過少的簇, 去除噪音數據等過程建立暫時的樹狀圖。GR IN 的第二個階段就是處理數據池中的其他數據, 即確定待處理的數據是否應插入第一階段得到的圖中的葉節點。如果該數據屬於多過兩個葉節點, 就用重力學原理確定它最終屬於哪個葉節點。雖然GR IN 具有較好的聚類質量及線性的時間復雜度, 對數據輸入順序和參數值的設定不敏感, 但是, GR IN 實質上並不是真正意義上的增量聚類算法, 而是批處理的方法。
W idyantoro等[ 26] 提出了凝聚的增量層次聚類算法 IHC, 該方法的目的是構建一個擁有兩個性質的概念層次: 同質性( homogeneity ) 和單調性( mono ton icity)。同質簇即為簇內對象有相似密度,而在層次聚類的簇中, 單調性是指一個簇的密度總是高於其父輩簇。Charikar等[ 27] 基於信息檢索的需求, 提出了基於層次凝聚的增量聚類算法, 即當以


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM