标签【MLlib】 - 码上欢乐

Spark实现K-Means算法

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。 MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的 ...

在机器学习中，一般都会按照下面几个步骤：特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了，一般模型最后效果的好坏往往都是跟特征的选择有关系的，因为模型本身的参数并没有 ...

MLlib--FPGrowth算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d741a55ac243.html FPGrowth算法_挖掘商 ...

MLlib--GBDT算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/8b9cb1875288d9f6cfc2f5a9b2f10eac.html GBDT算法 ...

spark-MLlib之线性回归

>>提君博客原创 http://www.cnblogs.com/tijun/ << 假定线性拟合方程：提君博客原创变量 Xi 是 i 个变量或者说属性 ...

Spark机器学习(2)：逻辑回归算法

逻辑回归本质上也是一种线性回归，和普通线性回归不同的是，普通线性回归特征到结果输出的是连续值，而逻辑回归增加了一个函数g(z)，能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个：Logis ...

Spark机器学习(5)：SVM算法

1. SVM基本知识 SVM(Support Vector Machine)是一个类分类器，能够将不同类的样本在样本空间中进行分隔，分隔使用的面叫做分隔超平面。比如对于二维样本，分布在二维平面上 ...

无论是ICF基于物品的协同过滤、UCF基于用户的协同过滤、基于内容的推荐，最基本的环节都是计算相似度。如果样本特征维度很高或者<user, item, score>的维度很大，都会导 ...

@(hadoop)[Spark, MLlib, 数据挖掘, 关联规则, 算法] 目录〇、简介一、Apriori算法二、MLlib实现 Ⅰ、获 ...

MLlib--保序回归

转载请标明出处http://www.cnblogs.com/haozhengfei/p/24cb3f38b55e5d7516d8059f9f105eb6.html 保序回归 1.线性回 ...