花费 40 ms
机器学习 —— 类不平衡问题与SMOTE过采样算法

在前段时间做本科毕业设计的时候,遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题。 ...

Mon Aug 15 21:01:00 CST 2016 2 40636
数据挖掘之关联分析一(基本概念)

许多商业企业运营中的大量数据,通常称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个唯一标识TID。 利用关联分析的方法可以发现联系如关联规则或频 ...

Wed Aug 19 05:05:00 CST 2015 0 21064
数据挖掘之关联分析二(频繁项集的产生)

频繁项集的产生 格结构(lattice structure)常常用来表示所有可能的项集。 发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度。但是工作量比较大。另外有几种方法可以降低产 ...

Wed Aug 19 05:58:00 CST 2015 0 18409
国货——达梦数据库及在.Net 下的增删改查

一,简介 偶然看到了国产数据库——达梦数据库。顿时起了兴趣,捣鼓了一番。 下面这段简介摘自百度百科 达梦数据库是武汉华工达梦数据库有限公司推出的具有完全自主知识产权的高性能数据 ...

Wed Apr 11 22:07:00 CST 2012 48 10829
数据挖掘中分类和聚类的区别

1.分类 分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类 ...

Thu Aug 22 17:05:00 CST 2013 0 14818
数据挖掘之关联分析五(序列模式)

购物篮数据常常包含关于商品何时被顾客购买的时间信息,可以使用这种信息,将顾客在一段时间内的购物拼接成事务序列,这些事务通常基于时间或空间的先后次序。 问题描述 一般地,序列是元素(element ...

Thu Aug 20 03:41:00 CST 2015 3 8980
数据挖掘之关联分析六(子图模式)

子图模式 频繁子图挖掘(frequent subgraph mining):在图的集合中发现一组公共子结构。 图和子图 图是一种用来表示实体集之间联系的数据结构。 子图,图\(G' = (V ...

Fri Aug 21 00:12:00 CST 2015 0 8996
TF-IDF 文本相似度分析

  前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模 ...

Sat Mar 05 06:58:00 CST 2016 0 5429

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM