绪论 什么是数据挖掘 数据挖掘是再大型数据存储库中,自动地发现有用信息的过程。(发现先前未知的有用模式,还可以预测未来观测结果) 并非所有的信息发现都视为数据挖掘,例使用数据库查找个别的记录或通过因特网查找特定的Web页面,则是信息检索。尽管如此,人们也在利用数据挖掘技术增强信息检索 ...
清华大学研究生公开课 数据挖掘是数据科学,是多领域交叉学科:数据挖掘 机器学习 人工智能 模式识别 统计学 数据挖掘的广泛应用: Business Intelligence Data Analytics Big Data Decision Support Customer Relationship Management Education is the kindling of a flame, n ...
2016-09-12 19:07 0 2552 推荐指数:
绪论 什么是数据挖掘 数据挖掘是再大型数据存储库中,自动地发现有用信息的过程。(发现先前未知的有用模式,还可以预测未来观测结果) 并非所有的信息发现都视为数据挖掘,例使用数据库查找个别的记录或通过因特网查找特定的Web页面,则是信息检索。尽管如此,人们也在利用数据挖掘技术增强信息检索 ...
实验七、数据挖掘之K-means聚类算法 一、实验目的 1. 理解K-means聚类算法的基本原理 2. 学会用python实现K-means算法 二、实验工具 1. Anaconda 2. sklearn 3. matplotlib 三、实验简介 1 K-means算法简介 ...
四种主要的数据挖掘任务: 1、预测建模任务 分类:用于预测离散的目标变量 回归:用于预测连续的目标变量 2、关联分析 3、聚类分析 4、异常检测 主要的数据质量问题:存在噪声和离群点,数据遗漏、不一致或重复,数据有偏差,或者在别的方面,数据不代表描述所设 ...
数据挖掘算法总结 1.分类算法 所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearest ...
一、概念 关联(Association) 关联就是把两个或两个以上在意义上有密切联系的项组合在一起。 关联规则(AR,Assocaition Rules) 用于从大量数据中挖掘出有价值的数据项之间的相关关系。(购物篮分析) 协同过滤(CF,Collaborative Filtering ...
数据离散化 数据离散化的一种常用方法是依据数据的相关性程度进行离散化,最常见的算法就是ChiMerge算法 定义 chimerge是基于chi-squre的,监督的,自底向上(合并的)一种数据离散化方法。 卡方检验 ...
实验三、数据挖掘之决策树 一、实验目的 1. 熟悉掌握决策树的原理, 2. 熟练掌握决策树的生成方法与过程 二、实验工具 1. Anaconda 2. sklearn 3. pydotplus 三、实验简介 决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标 ...
实验四、数据挖掘之KNN,Naive Bayes 一、实验目的 1. 掌握KNN的原理 2. 掌握Naive Bayes的原理 3. 学会利用KNN与Navie Bayes解决分类问题 二、实验工具 1. Anaconda 2. sklearn 三、实验简介 1. KNN ...