SparkML之推荐算法ALS


参考:
SparkML之推荐算法(一)ALS --有个比较详细的讲解,包含blocks使用。
Spark ALS源码总结

//TODO 源码,集群尝试、研究blocks使用原理及作用。
官方解释:numBlocks is the number of blocks used to parallelize computation (set to -1 to auto-configure).
即bloclk用于并行计算。并行计算量的大小。
block设定小值,集群中我们设置spark.default.parallelism=10 或者blocks=2。大大降低了运算时间,从6min降低到40s。但是这是为什么? 因为RDD的lineage?


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM