SparkML之推薦算法ALS


參考:
SparkML之推薦算法(一)ALS --有個比較詳細的講解,包含blocks使用。
Spark ALS源碼總結

//TODO 源碼,集群嘗試、研究blocks使用原理及作用。
官方解釋:numBlocks is the number of blocks used to parallelize computation (set to -1 to auto-configure).
即bloclk用於並行計算。並行計算量的大小。
block設定小值,集群中我們設置spark.default.parallelism=10 或者blocks=2。大大降低了運算時間,從6min降低到40s。但是這是為什么? 因為RDD的lineage?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM