花费 207 ms
Spark实现K-Means算法

K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的 ...

Thu Jun 01 04:03:00 CST 2017 0 9106
推荐系统那点事 —— 基于Spark MLlib的特征选择

在机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有 ...

Wed Jul 12 06:24:00 CST 2017 0 7219
MLlib--FPGrowth算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d741a55ac243.html FPGrowth算法_挖掘商 ...

Wed Mar 22 04:37:00 CST 2017 0 7098
MLlib--GBDT算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/8b9cb1875288d9f6cfc2f5a9b2f10eac.html GBDT算法 ...

Wed Mar 22 06:35:00 CST 2017 0 4895
spark-MLlib之线性回归

>>提君博客原创 http://www.cnblogs.com/tijun/ << 假定线性拟合方程: 提君博客原创 变量 Xi 是 i 个变量或者说属性 ...

Wed Nov 22 17:19:00 CST 2017 0 3552
Spark机器学习(2):逻辑回归算法

逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个:Logis ...

Fri Jun 16 01:55:00 CST 2017 0 4044
Spark机器学习(5):SVM算法

1. SVM基本知识 SVM(Support Vector Machine)是一个类分类器,能够将不同类的样本在样本空间中进行分隔,分隔使用的面叫做分隔超平面。 比如对于二维样本,分布在二维平面上 ...

Thu Jul 06 07:52:00 CST 2017 0 3912
Spark MLlib 之 大规模数据集的相似度计算原理探索

无论是ICF基于物品的协同过滤、UCF基于用户的协同过滤、基于内容的推荐,最基本的环节都是计算相似度。如果样本特征维度很高或者<user, item, score>的维度很大,都会导 ...

Thu Jul 12 05:54:00 CST 2018 1 1777
MLlib--保序回归

转载请标明出处http://www.cnblogs.com/haozhengfei/p/24cb3f38b55e5d7516d8059f9f105eb6.html 保序回归 1.线性回 ...

Wed Mar 22 06:52:00 CST 2017 0 2490

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM