本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans ...
声明: 本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。 本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘 垃圾邮件过滤 ,第二是聚类分析,第三是关联挖掘。 本文由于过长,且实验报告内的评估观点有时不一定正确,希望抛砖引玉。 一 WEKA在Ubuntu下的配置 下载解压 下载和解压weka 。下载: 创建目录:sudo mkdir usr wek ...
2014-06-05 16:24 2 5832 推荐指数:
本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans ...
1.1 反垃圾邮件的研究与发展 1.1.1 垃圾邮件定义 垃圾邮件,基本上在20世纪末期开始泛滥开来,邮件的广泛使用,以其成本低廉,传输便利的优势,使得邮件得到了商业组织的重视。在商业利益的驱动下,垃圾邮件开始在互联网上泛滥成灾。 1> 垃圾邮件(Email Spam)是指未经用户同意 ...
朴素贝叶斯最著名的一个应用:电子邮件垃圾过滤。 准备数据:切分文本 采用正则表达式和split()函数进行,和Java语言的字符串分割基本类似,略去不讲 第一个函数传入一个字符串,将其转化成字符串列表,并且去掉少于两个字符的字符串,并将所有字符串转换为小写 第二个 ...
聚类分析 一、概念 聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性 聚类分析属于无监督学习 聚类对象可以分为Q型聚类和R型聚类 Q型聚类:样本/记录聚类 以距离为相似性指标 (欧氏距离、欧氏平方距离 ...
近一段有同事抱怨公司的邮件系统垃圾邮件非常多,早上上班打开邮箱垃圾邮件竟然有几十封。然后赶紧打开Exchange工具“邮件跟踪”,发现有每隔1到2分钟,邮件系统便会收到来自不同IP的垃圾邮件,由于源IP范围很广,所以手工向"IP阻止列表“中添加IP不太现实,在网上搜了很多解决方案,最后发现 ...
一、算法介绍https://www.cnblogs.com/love528/p/10125089.html 二、实现过程 实验步骤 (1)收集数据:提供文本文件。 (2)准备数据:将文本文件解析成词条向量。 (3)分析数据:检查词条确保解析的正确性。 (4)训练算法:计算不同的独立特征 ...
一、算法介绍 朴素贝叶斯法,简称NB算法,是贝叶斯决策理论的一部分,是基于贝叶斯定理与特征条件独立假设的分类方法: 首先理解两个概念: · 先验概率是指根据以往经验和分析得到的概率,它往往作为“由因求果”问题中的“因”出现; · 后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻 ...
1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数 ...