PairRDD中算子reduceByKey圖解

本文轉載自查看原文 2016-07-30 23:09 1530

reduceByKey

函數原型：

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]

作用：

按照func的映射關系，將兩個V型的值映射到相同類型的V值上去。

例子：

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at makeRDD at <console>:27

scala> rdd1.partitions.size
res0: Int = 48

scala> var rdd2 = rdd1.reduceByKey((x,y) => x + y)
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[1] at reduceByKey at <console>:29

scala> rdd2.collect
res1: Array[(String, Int)] = Array((A,2), (B,3), (C,1))

scala> rdd2.partitions.size
res2: Int = 48

scala> var rdd2 = rdd1.reduceByKey(new org.apache.spark.HashPartitioner(2),(x,y) => x + y)
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[2] at reduceByKey at <console>:29

scala> rdd2.collect
res3: Array[(String, Int)] = Array((B,3), (A,2), (C,1))

scala> rdd2.partitions.size
res4: Int = 2

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java實現spark常用算子之ReduceByKey Spark中reduceByKey(_+_)的說明（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark Spark中groupByKey、reduceByKey與sortByKey Spark中的reduceByKey()和groupByKey()的區別 Python使用map,reduce高階函數模擬實現Spark的reduceByKey算子功能 Spark 算子調優：MapPartitions+coalesce+foreachPartition+repartition+reduceByKey詳解 Spark中groupBy groupByKey reduceByKey的區別 Flink中的算子操作 spark中的shuffle算子