2-1数据对象与属性类型 数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售•,在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中 ...
.数据离散化和概念分层的原理和目的 通过将属性值域划分为区间,用区间标记代替实际的数值,用来减少给定连续属性值的个数。 .离散化技术分类 例如:自顶向下:首先找出一个或几个点作为分裂点来对真个属性空间进行划分,然后再在结果区间上递归重复该过程。 自底向上:首相将所有的连续之看做分裂点,然后合并相近的属性区间,减少分裂点,然后递归的调用该过程。 .数值数据的离散化和概念分层的产生方法 a.分箱。基 ...
2016-11-09 11:13 1 1470 推荐指数:
2-1数据对象与属性类型 数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售•,在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中 ...
下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划 ...
基本概念 数据矩阵 表示 n个对象 × p个属性 相异性矩阵 表示n个对象两两之间的临近度 n×n的矩阵 d(i,j)表示对象i与对象j之间的相异性 1 标称属性的临近性度量 计算公式: m: 匹配的数目(即i和j取值相同状态的属性数) p: 刻画对象的属性 ...
1 离群点和离群点分析 1.2 离群点的类型 a.全局离群点 显著偏离数据集中的其余对象,最简单的一类离群点。 检测方法:找到一个合适 ...
许多商业企业运营中的大量数据,通常称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个唯一标识TID。 利用关联分析的方法可以发现联系如关联规则或频繁项集。 关联分析需要处理的关键问题: 从大型事务数据集中发现模式可能在计算上要付出很高 ...
问题:数据总量爆炸式增加,如何从中提取真正有价值的信息,产生了新的领域(DM)。几个名词: 1)Data Mining:数据挖掘 2)Knowledge Discovery:知识发现 3)Machine Learning:机器学习(机器学习是数据挖掘的一个重要工具 ...
下面内容摘自互联网并作了整理。 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分。 OLTP(On-Line Transaction Processing ...
没有系统学过数学优化,但是机器学习中又常用到这些工具和技巧,机器学习中最常见的优化当属凸优化了,这些可以参考Ng的教学资料:http://cs229.stanford.edu/section/cs229-cvxopt.pdf,从中我们可以大致了解到一些凸优化的概念,比如凸集,凸函数,凸 ...