不多说,直接上干货! Weka介绍: Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据 ...
我个人认为直接讨论数据挖掘算法和weka的使用过于心急。我一开始就直接学习的数据挖掘方法,有些方法艰涩枯燥,我常常在思考的不是方法本身,而是 这是干什么的 。 在使用了weka后有些东西渐渐清晰,因为输入和输出给了人很直观的感觉,再结合技术本身学习效率很高。 输入主要有三类:概念 实例和属性。 概念 概念简单而言就是需要被处理的东西。它可以是分类学习中那个已经分类完成的样本集。 你需要处理的东西可 ...
2012-03-30 00:21 7 25573 推荐指数:
不多说,直接上干货! Weka介绍: Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不适合处理大型数据 ...
一、什么是arff格式文件 1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式 ...
写在开篇 weka用了一些时日了,觉得真心不错。功能很完善,而且是开源的。最重要的扩展方便,非常适合搞研究和做全国大学生数学建模之类的比赛。 我学习weka主要是看的一本数据挖掘和weka使用的书,是英文的。国内有中文版…但是不想吐就不要看译本吧,不知道是翻译的人是怎么想的. 我写博文的顺序 ...
1.简介 数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要 ...
上一篇介绍了arff格式,这是weka专有格式,一般情况需要我们从其他数据源抽取或者获得。weka支持从cvs转化,也可以从数据库中抽取,界面如下图 weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。 导入了数据仅仅是一个开始,我们还需要对数据进行预处理。 数据 ...
OneR算法简介 OneR又称1-R,是1993出现的一种极为简单的分类算法模型,它可以产生一个单层的决策树。 OneR算法是一个简单、廉价的方法,但是常常能够获得一个非常好的结果,用于描述数据中的结构。 OneR算法的使用非常广泛,可以简单的得到一个对数据的概括性了解,有时候甚至可以直接 ...
的,另一个是我实验时打开的。 一.引入 数据挖掘、机器学习这些字眼,在一些人看来,是 ...
本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans ...