Spark算子：RDD基本轉換操作(5)–mapPartitions、

本文轉載自查看原文 2016-07-04 21:48 3078

關鍵字：Spark算子、Spark RDD基本轉換、mapPartitions、mapPartitionsWithIndex

mapPartitions

def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

該函數和map函數類似，只不過映射函數的參數由RDD中的每一個元素變成了RDD中每一個分區的迭代器。如果在映射的過程中需要頻繁創建額外的對象，使用mapPartitions要比map高效的過。

比如，將RDD中的所有數據通過JDBC連接寫入數據庫，如果使用map函數，可能要為每一個元素都創建一個connection，這樣開銷很大，如果使用mapPartitions，那么只需要針對每一個分區建立一個connection。

參數preservesPartitioning表示是否保留父RDD的partitioner分區信息。

var rdd1 = sc.makeRDD(1 to 5,2)
//rdd1有兩個分區
scala> var rdd3 = rdd1.mapPartitions{ x => {
| var result = List[Int]()
| var i = 0
| while(x.hasNext){
| i += x.next()
| }
| result.::(i).iterator
| }}
rdd3: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[84] at mapPartitions at :23
//rdd3將rdd1中每個分區中的數值累加
scala> rdd3.collect
res65: Array[Int] = Array(3, 12)
scala> rdd3.partitions.size
res66: Int = 2

def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

函數作用同mapPartitions，不過提供了兩個參數，第一個參數為分區的索引。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark算子：RDD基本轉換操作(7)–zipWithIndex、zipWithUniqueId Spark算子--mapPartitions和mapPartitionsWithIndex Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct Spark RDD算子介紹 java實現spark常用算子之mapPartitions spark教程(四)-SparkContext 和 RDD 算子 Spark基礎 --RDD算子詳解 spark RDD 鍵值算子——repartitionAndSortWithinPartitions算子 Spark RDD 操作 Spark RDD基本概念、寬窄依賴、轉換行為操作