转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html 为便于理解 有修改 一、基本思想 1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最 ...
查看原文 聚类是机器学习里很重要的一类方法,基本原则是将 性质相似 这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性 的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去: a large number of clusters, a high feature dimensionality, a large n ...
2012-06-07 16:32 0 4994 推荐指数:
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html 为便于理解 有修改 一、基本思想 1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最 ...
一、Mahout命令使用 合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序列。 1. 把数据拷到集群上,放到kmeans/目录 ...
(借鉴于网络资料,有修改) 一、概念介绍 K-means算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的 ...
第九章聚类算法 9.1 K-means聚类 K-means需要用户设定一个聚类个数(k)作为输入数据,有时k值可能非常大(10,000),这是Mahout闪光的(shines)地方,它确保聚类的可测量性。 为了用k-means达到高质量的聚类,需要估计一个k值。估计k值一种近似的方法 ...
《mahout实战》 基本信息 原书名:Mahout in action 作者: (美)Sean Owen Robin Anil Ted Dunning Ellen Friedman 译者: 王斌 韩冀中 万吉 丛书名: 图灵程序设计丛书 出版社:人民邮电出版社 ...
Canopy一般用在Kmeans之前的粗聚类。考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏 比较科学 ...
Canopy一般用在K均值之前的粗聚类。考虑到K均值在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏比较科学、也是 ...
Clustering》一文。为了上下文一致性和便于理解,我就直接截图别人基于这篇论文中翻译好的部分(偷懒): ...