spark-groupByKey

本文转载自查看原文 2018-11-25 16:28 703

一般来说，在执行shuffle类的算子的时候，比如groupByKey、reduceByKey、join等。其实算子内部都会隐式地创建几个RDD出来。那些隐式创建的RDD，主要是作为这个操作的一些中间数据的表达，以及作为stage划分的边界。因为有些隐式生成的RDD，可能是ShuffledRDD，dependency就是ShuffleDependency，DAGScheduler的源码，就会将这个RDD作为新的stage的第一个rdd，划分出来。

groupByKey等shuffle算子，都会创建一些隐式RDD。比如说这里，ShuffledRDD，作为一个shuffle过程中的中间数据的代表。依赖这个ShuffledRDD创建出来一个新的stage（stage1）。ShuffledRDD会去触发shuffle read操作。从上游stage的task所在节点，拉取过来相同的key，做进一步的聚合。对ShuffledRDD中的数据执行一个map类的操作，主要是对每个partition中的数据，都进行一个映射和聚合。这里主要是将每个key对应的数据都聚合到一个Iterator集合中。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 spark中groupByKey与reducByKey spark RDD，reduceByKey vs groupByKey java实现spark常用算子之groupbykey Spark 学习笔记之 distinct/groupByKey/reduceByKey Spark中groupBy groupByKey reduceByKey的区别 Pandas中dataframe以及spark中rdd使用groupByKey进行合并 Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点 groupbyKey和reducebyKey的区别 reduceByKey和groupByKey区别与用法 Spark：spark读取hbase