前言 随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制。 因为它是没有迭代过程的,不像AdaBoo ...
前言 随机森林非常像《机器学习实践》里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制。 因为它是没有迭代过程的,不像AdaBoo ...
前言 这部分也许是数据预处理最为关键的一个阶段。 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析。 本文仅介绍主成分分 ...
前言 本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤。 聚类分析总体流程 1. 载入并了解数据集;2. 调用聚类函数进行 ...
前言 R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍;而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识。 ...
前言 数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。 ...
前言 数据可视化是数据挖掘非常重要的一个环节,它不单在查阅了解数据环节使用到,在整个数据挖掘的流程中都会使用到。 因为数据可视化不单可以形象地展示数据,让你对数据有更好 ...
前言 本文讲解如何使用R语言中e1071包中的SVM函数进行分类操作,并以一个关于鸢尾花分类的实例演示具体分类步骤。 分析总体流程 1. 载入并了解数据集;2. 对数据集进行训练并 ...
前言 在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍 ...