标签【【04-★】数据挖掘_R语言实践】

第九篇：随机森林(Random Forest)

前言随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法，但区别在于它没有迭代，还有就是森林里的树长度不限制。因为它是没有迭代过程的，不像AdaBoo ...

前言这部分也许是数据预处理最为关键的一个阶段。如何对数据降维是一个很有挑战，很有深度的话题，很多理论书本均有详细深入的讲解分析。本文仅介绍主成分分 ...

第十篇：K均值聚类(KMeans)

前言本文讲解如何使用R语言进行 KMeans 均值聚类分析，并以一个关于人口出生率死亡率的实例演示具体分析步骤。聚类分析总体流程 1. 载入并了解数据集；2. 调用聚类函数进行 ...

第三篇：数据可视化 - ggplot2

前言 R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大，因此会在以后的实例中逐步介绍；而作图部分的套路相对来说是比较固定的，现在可以先对它做一个总体的认识。 ...

前言数据中如果有某个值偏离该列其他值比较离谱，那么就有可能是一个异常的值。在数据预处理中，自然需要把这个异常值检测出来，然后剔除掉，或者光滑掉，或者其他各种方法进行处理。 ...

第二篇：数据可视化 - 基本API

前言数据可视化是数据挖掘非常重要的一个环节，它不单在查阅了解数据环节使用到，在整个数据挖掘的流程中都会使用到。因为数据可视化不单可以形象地展示数据，让你对数据有更好 ...

前言本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作，并以一个关于鸢尾花分类的实例演示具体分类步骤。分析总体流程 1. 载入并了解数据集；2. 对数据集进行训练并 ...

前言在对数据有了大致的了解以后，就需要对获取到的数据进行一个预处理了。预处理的过程并不简单，大致来说分成缺失值处理，异常值处理，数据归约等等 (可根据实际情况对这些阶段进行科学的取舍 ...