原文:(转)Mahout Kmeans Clustering 学习

一 Mahout命令使用 合成控制的数据集 synthetic control.data 可以从 此处下载,总共由 行X 列double型的数据组成, 意思是有 个元组,每个元组是一个时间序列。 . 把数据拷到集群上,放到kmeans 目录下 hadoop fs mv synthetic control.data kmeans synthetic control.data . 输入如下mahout ...

2014-04-18 15:56 0 4950 推荐指数:

查看详情

Mahout——Canopy Clustering

查看原文 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、a large ...

Fri Jun 08 00:32:00 CST 2012 0 4994
mahout下的Canopy Clustering实现

自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html 为便于理解 有修改 一、基本思想 1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最 ...

Thu Jul 19 00:46:00 CST 2012 2 4167
mahout下的K-Means Clustering实现

(借鉴于网络资料,有修改) 一、概念介绍 K-means算法是硬聚类算法,是典型的局域原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的 ...

Sat Jul 21 00:22:00 CST 2012 0 5482
Mahout in Action-Clustering-聚类算法

第九章聚类算法 9.1 K-means聚类   K-means需要用户设定一个聚类个数(k)作为输入数据,有时k值可能非常大(10,000),这是Mahout闪光的(shines)地方,它确保聚类的可测量性。   为了用k-means达到高质量的聚类,需要估计一个k值。估计k值一种近似的方法 ...

Fri Jun 08 20:43:00 CST 2012 0 3123
Mahout使用入门

一、简介 Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版 ...

Wed Jan 23 04:38:00 CST 2013 0 10332
()mahout 实用教程

mahout svn仓库地址:http://svn.apache.org/repos/asf/mahout/trunk movie length 数据地址:http://www.grouplens.org/system/files/ml-100k.zip 1. mahout简介 ...

Sat Apr 05 00:08:00 CST 2014 0 2585
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM