spark foreachPartition foreach

本文轉載自查看原文 2019-09-27 18:49 1528 spark

1.foreach

    val list = new ArrayBuffer()
    myRdd.foreach(record => {
      list += record
    })

2.foreachPartition

    val list = new ArrayBuffer
    rdd.foreachPartition(it => {
      it.foreach(r => {
        list += r
      })
    })

說明：

foreachPartition屬於算子操作，可以提高模型效率。比如在使用foreach時，將RDD中所有數據寫Mongo中，就會一條數據一條數據地寫，每次函數調用可能就會創建一個數據庫連接，此時就勢必會頻繁地創建和銷毀數據庫連接，性能是非常低下；但是如果用foreachPartitions算子一次性處理一個partition的數據，那么對於每個partition，只要創建一個數據庫連接即可，然后執行批量插入操作，此時性能是比較高的。

參考官網的說明：

https://spark.apache.org/docs/latest/streaming-programming-guide.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark算子--foreach和foreachPartition spark源代碼action系列-foreach與foreachPartition spark foreach spark基礎知識介紹(包含foreachPartition寫入mysql） Spark 算子調優：MapPartitions+coalesce+foreachPartition+repartition+reduceByKey詳解 Spark2.4報value foreach is not a memeber of Object錯 foreachPartition來寫數據庫 forEach() Spark：如何替換sc.parallelize(List(item1,item2)).collect().foreach(row=>{})為並行？標簽