原文:WEKA使用(基础配置+垃圾邮件过滤+聚类分析+关联挖掘)

声明: 本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。 本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘 垃圾邮件过滤 ,第二是聚类分析,第三是关联挖掘。 本文由于过长,且实验报告内的评估观点有时不一定正确,希望抛砖引玉。 一 WEKA在Ubuntu下的配置 下载解压 下载和解压weka 。下载: 创建目录:sudo mkdir usr wek ...

2014-06-05 16:24 2 5832 推荐指数:

查看详情

数据挖掘学习02 - 使用weka的kmeans聚类分析

本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans ...

Tue Oct 16 05:12:00 CST 2012 3 19794
垃圾邮件过滤技术

1.1 反垃圾邮件的研究与发展 1.1.1 垃圾邮件定义 垃圾邮件,基本上在20世纪末期开始泛滥开来,邮件的广泛使用,以其成本低廉,传输便利的优势,使得邮件得到了商业组织的重视。在商业利益的驱动下,垃圾邮件开始在互联网上泛滥成灾。 1> 垃圾邮件(Email Spam)是指未经用户同意 ...

Wed May 20 03:46:00 CST 2015 0 2597
使用朴素贝叶斯过滤垃圾邮件

朴素贝叶斯最著名的一个应用:电子邮件垃圾过滤。 准备数据:切分文本 采用正则表达式和split()函数进行,和Java语言的字符串分割基本类似,略去不讲 第一个函数传入一个字符串,将其转化成字符串列表,并且去掉少于两个字符的字符串,并将所有字符串转换为小写 第二个 ...

Fri Sep 15 01:29:00 CST 2017 1 1823
数据挖掘——聚类分析总结

聚类分析 一、概念   聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性   聚类分析属于无监督学习   聚类对象可以分为Q型聚类和R型聚类     Q型聚类:样本/记录聚类 以距离为相似性指标 (欧氏距离、欧氏平方距离 ...

Sat Oct 27 23:02:00 CST 2018 0 17917
(原创)在Exchange 2007 server中使用实时黑名单服务(RBL)过滤垃圾邮件

近一段有同事抱怨公司的邮件系统垃圾邮件非常多,早上上班打开邮箱垃圾邮件竟然有几十封。然后赶紧打开Exchange工具“邮件跟踪”,发现有每隔1到2分钟,邮件系统便会收到来自不同IP的垃圾邮件,由于源IP范围很广,所以手工向"IP阻止列表“中添加IP不太现实,在网上搜了很多解决方案,最后发现 ...

Mon Jul 01 21:38:00 CST 2013 1 2862
使用朴素贝叶斯算法简单实现垃圾邮件过滤之实现过程

一、算法介绍https://www.cnblogs.com/love528/p/10125089.html 二、实现过程 实验步骤 (1)收集数据:提供文本文件。 (2)准备数据:将文本文件解析成词条向量。 (3)分析数据:检查词条确保解析的正确性。 (4)训练算法:计算不同的独立特征 ...

Tue Dec 18 03:00:00 CST 2018 0 1111
使用朴素贝叶斯算法简单实现垃圾邮件过滤之算法介绍

一、算法介绍 朴素贝叶斯法,简称NB算法,是贝叶斯决策理论的一部分,是基于贝叶斯定理与特征条件独立假设的分类方法: 首先理解两个概念: · 先验概率是指根据以往经验和分析得到的概率,它往往作为“由因求果”问题中的“因”出现; · 后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻 ...

Sun Dec 16 06:07:00 CST 2018 2 2038
垃圾邮件分类

1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数 ...

Fri Dec 07 03:46:00 CST 2018 0 717
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM