增量聚类算法


目前有关增量聚类的研究主要是将增量数据看成是时间序列数据或按特定顺序的数据, 主要可以分成两类: 一类是每次将所有数据进行迭代,即从第一个数据到最后一个数据进行迭代运算, 其优点是精度高, 不足之处是不能利用前一次聚类的结果, 浪费资源; 另一类是利用上一次聚类的结果,每次将一个数据点划分到已有簇中, 即新增的数据点被划入中心离它最近的簇中并将中心移向新增的数据点, 也就是说新增的数据点不会影响原有划分, 其优点是不需要每次对所有数据进行重新聚类, 不足之处是泛化能力弱, 监测不出孤立点。因此, 如何设计增量聚类算法以提高聚类效率, 成为当前聚类分析的一个重要挑战。

目前存在各种各样的聚类方法[ 3] , 传统的聚类方法主要被划分成五类: 基于层次的、基于划分的、基于密度的、基于网格的和基于模型的聚类。基于层次的聚类和基于划分的聚类是实际生活中应用最为广泛的两类。前者可以进一步划分为自底向上和自顶向下两种[ 1] , 例如CLIQUE[ 3] 、ENCLUS 和MAFIA[ 4] 属于自底向上算法, PROCLUS[ 5] 和ORCLUS[ 6 ]属于自顶向下的算法。但是, 传统的层次聚类算法由于计算量过大不适用于大数据集, 例如BIRCH[ 2] 和CURE[ 7 ] 。传统的基于划分的算法包括k-means、k-modes等等, 其中k-means是现存聚类算法中最经典的聚类算法[ 8, 9] 。

增量聚类是维持或改变k 个簇的结构的问题。比如, 一个特定序列中的新的数据点可能被划分到已有k 个簇的一个簇中, 也可能被划分到新的簇中,此时会需要将另外两个簇变成一个[ 10 ] 。自从H art igan在文献[ 11]中提出的算法被实现[ 12] , 增量聚类就吸引了众人的关注。D. Fisher[ 13] 提出的COBWEB 算法是一种涉及到增量形式数据点的增量聚类算法。文献[ 14, 15]中给出了与数据库的动态方面相关的增量聚类的详细阐述, 文献[ 16􀀁 18]中列出了其广泛应用的领域。对增量聚类产生兴趣的动力是主存空间有限, 有些信息不需要存储起来,例如数据点之间的距离, 同时增量聚类算法可以根据数据点集的大小和属性数进行扩展[ 19] 。文献[ 10, 17]中也对于求解增量聚类问题的算法进行了研究。
现在很多聚类算法都是对单一数据类型的数据进行聚类, 但是现实数据中非常多的数据都是混合数据类型的数据, 既包含数值属性数据, 还是分类属性数据, 简单地丢弃其中一种数据类型, 或者将其中一种数据类型转换成另一种, 都会影响聚类的精度。因此, 混合属性数据增量聚类的研究具有非常重要的意义。
2 基于传统聚类方法及其变形的增量聚类算法
 现在对于增量聚类方法的增量处理主要集中在三个方面, 一类是基于传统聚类方法及其各种变形的增量聚类算法, 一类是基于生物智能的增量聚类算法, 另一类是针对数据流的聚类算法。
2. 1 方法概述
有的传统聚类方法同样适用于增量模式的聚类, 如BR ICH 和COBWEB 算法。也有些是在传统聚类算法的基础进行了变形, 来满足增量聚类的需要。文献[ 20]中首次提出了增量聚类的概念, 也就是增量的DBSCAN, 它是基于DBSCAN 的基础上提出的。由于DBSCAN 算法是基于密度的特性, 插入或删除一个新的数据点只影响当前聚类中近邻该点的簇, 这种方法的优点是它的聚类结果和非增量聚类的结果相似, 但是它的不足是只能一个一个的划分数据点, 从而导致聚类的效率很低。文献[ 21]
中提出了基于网格的增量聚类, 其类似于增量的DBSCAN。Huang和Zou与Xu和X ie[ 22, 23] 采用批量处理的基于密度的增量聚类, 克服了一个一个处理数据的缺点, 以批量的形式处理数据, 但是用这种聚类方法由于计算量过大而不能用于大数据集。
文献[ 24]中描述了一种高效的基于密度的增量聚类算法, 利用划分和抽样技术来处理大数据集, 在划分高维数据时会产生抽样误差。
Chen等[ 25] 依据物理学中的重力理论提出了一种增量的层次聚类, 即GRIN 算法。该算法分为两个阶段, 首先, 它把到达的增量数据缓冲在一个数据池中, 从池中选出一些样本数据对其建立树状图( dendrogram ), 删除包含数量过少的簇, 去除噪音数据等过程建立暂时的树状图。GR IN 的第二个阶段就是处理数据池中的其他数据, 即确定待处理的数据是否应插入第一阶段得到的图中的叶节点。如果该数据属于多过两个叶节点, 就用重力学原理确定它最终属于哪个叶节点。虽然GR IN 具有较好的聚类质量及线性的时间复杂度, 对数据输入顺序和参数值的设定不敏感, 但是, GR IN 实质上并不是真正意义上的增量聚类算法, 而是批处理的方法。
W idyantoro等[ 26] 提出了凝聚的增量层次聚类算法 IHC, 该方法的目的是构建一个拥有两个性质的概念层次: 同质性( homogeneity ) 和单调性( mono ton icity)。同质簇即为簇内对象有相似密度,而在层次聚类的簇中, 单调性是指一个簇的密度总是高于其父辈簇。Charikar等[ 27] 基于信息检索的需求, 提出了基于层次凝聚的增量聚类算法, 即当以


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM