原文:数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

本文目的 最近一直在使用R进行hcluster计算,主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数,如果需要下载R的扩展,要下载许多关联的库,所以自己编写了一个简单的cosine函数,并且使用了R的proxy扩展 距离计算框架 ,计算向量距离。内容涉及比较多,所以记录一下,作为备忘。 采用R计算hclust 步骤一:准备数 ...

2012-10-30 20:36 4 3528 推荐指数:

查看详情

R语言学习数据挖掘

1.用R计算数据基本统计量(均值) 学习机器学习数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据 ...

Sat Mar 19 05:37:00 CST 2022 0 759
使用Weka进行数据挖掘

1.简介 数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要 ...

Thu Feb 06 16:32:00 CST 2014 0 7248
R语言进行数据挖掘】回归分析

1、线性回归 线性回归就是使用下面的预测函数预测未来观测量: 其中,x1,x2,...,xk都是预测变量(影响预测的因素),y是需要预测的目标变量(被预测变量)。 线性回归模型的数据来源于澳大利亚的CPI数据,选取的是2008年到2011年的季度数据。 rep函数里面的第一个参数是向量 ...

Mon Oct 12 07:04:00 CST 2015 0 4114
数据挖掘学习08 - 实验:使用R评估kmeans聚类的最优K

本文目的 最近这几天一直在研究如何评估Kmeans聚类算法中的最优K值。主要理论依据是《数据挖掘导论》8.5.5节中介绍的SSE和Silhouette Coefficient系数的方法评估最优K。现在记录整个实验过程,作为备忘。不过,体验过程中,由于R软件使用的还不太熟练,实现过程中有些地方 ...

Fri Nov 09 05:27:00 CST 2012 2 11933
关于数据挖掘中的文本挖掘

文本挖掘, 顾名思义,就是挖掘本文信息中潜在的有价值的信息。文本数据与数值数据的区别有三: 第一,非结构化且数据量大; 文本数据数据量是非常之巨大的,一百万条结构化数据可能才几十到几百兆,而一百万条文本数据就已经是GB了。当然文本数据数据量无法与每天的log数据相比 ...

Thu Jan 26 08:51:00 CST 2017 0 7547
数据挖掘简述和weka介绍--数据挖掘学习和weka使用(一)

写在开篇 weka用了一些时日了,觉得真心不错。功能很完善,而且是开源的。最重要的扩展方便,非常适合搞研究和做全国大学生数学建模之类的比赛。 我学习weka主要是看的一本数据挖掘和weka使用的书,是英文的。国内有中文版…但是不想吐就不要看译本吧,不知道是翻译的人是怎么想的. 我写博文的顺序 ...

Thu Mar 29 21:31:00 CST 2012 10 11127
使用sklearn进行数据挖掘-房价预测(1)

使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)—划分测试集 3.使用sklearn进行数据挖掘-房价预测(3)—绘制数据的分布 4.使用sklearn进行数据挖掘-房价预测 ...

Wed Oct 25 05:03:00 CST 2017 0 5964
【转】使用sklearn优雅地进行数据挖掘

这里是原文 目录 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术并行处理 并行处理 2.1 整体并行处理 2.2 部分并行处理流水线处理自动化调参持久化回顾总结参考资料使用 ...

Sat Jun 25 13:57:00 CST 2016 1 9782
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM