Spark中groupBy groupByKey reduceByKey的区别

本文转载自查看原文 2018-01-26 17:52 1349 reduceByKey/ groupByKey/ spark/ groupBy

groupBy

和SQL中groupby一样，只是后面必须结合聚合函数使用才可以。

例如：

hour.filter($"version".isin(version: _*)).groupBy($"version").agg(countDistinct($"id"), count($"id")).show()

groupByKey

对Key-Value形式的RDD的操作。

例如(取自link)：

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length)//给value加上key，key为对应string的长度
b.groupByKey.collect
//结果 Array((4,ArrayBuffer(lion)), (6,ArrayBuffer(spider)), (3,ArrayBuffer(dog, cat)), (5,ArrayBuffer(tiger, eagle)))

reduceByKey

与groupByKey功能一样，只是实现不一样。本函数会先在每个分区聚合然后再进行总的统计，如图：

而groupByKey则是

因此，本函数比groupByKey节省了传播的开销，尽量少用groupByKey

参考

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark中的reduceByKey()和groupByKey()的区别 Spark中groupByKey、reduceByKey与sortByKey reduceByKey和groupByKey的区别 groupbyKey和reducebyKey的区别 reduceByKey和groupByKey区别与用法 pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用 spark RDD，reduceByKey vs groupByKey Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点【spark】常用转换操作：reduceByKey和groupByKey Spark 学习笔记之 distinct/groupByKey/reduceByKey