Scala當中parallelize並行化的用法

本文轉載自查看原文 2019-07-27 18:43 700 Scala/ parallelize並行化

[學習筆記]

parallelize並行化集合是根據一個已經存在的Scala集合創建的RDD對象。集合的里面的元素將會被拷貝進入新創建出的一個可被並行操作的分布式數據集。
例如：val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根據系統環境來進行切分多個slice，每一個slice啟動一個Task來進行處理。
val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 5) 指定了partition的數量為5,
makeRDD和parallelize的區別？makeRDD函數有兩種實現，第一種實現其實完全和parallelize一致。而第二種實現可以為數據提供位置信息，除此之外，和parallelize是一致的
*/
    val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
    val rdd03_1 = rdd03.map { x => x + 1 }
    println("map2 用法 is 馬克-to-win @ 馬克java社區：" + rdd03_1.collect().mkString(","))

    val rdd04 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
    val rdd04_1 = rdd04.filter { x => x > 3 }
    println("filter2 用法馬克-to-win @ 馬克java社區：" + rdd04_1.collect().mkString(","))

    val rdd05: RDD[Int] = sc.makeRDD(Array(1, 4, 3))
    val rdd06: RDD[Int] = sc.makeRDD(Array(7, 5))
    myunion(rdd05, rdd06)
    /*reduce(function)

文章轉載自原文：https://blog.csdn.net/qq_44596980/article/details/93310016

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【OpenCV學習】OpenMP並行化實例 pytorch使用DataParallel並行化負載不均衡問題 Java 8函數編程輕松入門（五）並行化（parallel）一行 Python 實現並行化 -- 日常多線程操作的新思路人工智能機器學習：LightGBM訓練快、低內存、准確率高、支持並行化、可處理大規模數據 Spark：如何替換sc.parallelize(List(item1,item2)).collect().foreach(row=>{})為並行？ geotrellis使用（六）Scala並發（並行）編程 Scala 並行和並發編程-Futures 和 Promises【翻譯】 Spark Scala當中reduceByKey的用法 Scala中 zip或者zipWithIndex的用法