原文:数据挖掘学习08 - 实验:使用R评估kmeans聚类的最优K

本文目的 最近这几天一直在研究如何评估Kmeans聚类算法中的最优K值。主要理论依据是 数据挖掘导论 . . 节中介绍的SSE和Silhouette Coefficient系数的方法评估最优K。现在记录整个实验过程,作为备忘。不过,体验过程中,由于R软件使用的还不太熟练,实现过程中有些地方可能不准确,还请大牛指点。 实验步骤概述 下载实验数据,点击这里。 取k值范围,计算出SSE,并绘制出曲线图, ...

2012-11-08 21:27 2 11933 推荐指数:

查看详情

数据挖掘学习02 - 使用weka的kmeans聚类分析

本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans ...

Tue Oct 16 05:12:00 CST 2012 3 19794
Python数据挖掘聚类KMeans划分法

概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)——无监督学习 K-Means划分法、DBSCAN密度法、层次聚类法 1、导入数据 View ...

Tue Oct 09 16:22:00 CST 2018 1 4026
数据挖掘——学习笔记(系统聚类法和K均值聚类法)

一.系统聚类法 1.基本思想 将模式样本按距离准则逐步分类,类别由多到少,直到获得合适的分类要求为止。 算法: 第一步:设初始模式样本共有N个,每个样本自成一类,即建立N类,。计算各类之间的距离(初始时即为各样本间的距离),得到一个N*N维的距离矩阵D(0)。这里,标号(0)表示聚类 ...

Mon Apr 09 17:42:00 CST 2012 0 15397
R数据挖掘 第三篇:聚类评估(簇数确定和轮廓系数)和可视化

在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下 ...

Sat Aug 25 23:18:00 CST 2018 1 11322
数据挖掘聚类算法K-Means总结

序   由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现; 正文: 1.基础Kmeans算法.   Kmeans算法的属于基础的聚类算法,它的核心思想是: 从初始的数据点集合,不断纳入新的点 ...

Sun Jan 22 19:46:00 CST 2017 0 3181
R语言学习数据挖掘

1.用R计算数据基本统计量(均值) 学习机器学习数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据 ...

Sat Mar 19 05:37:00 CST 2022 0 759
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM