查看spark RDD 各分区内容

本文转载自查看原文 2018-12-31 19:25 924 Scala/ hadoop/spark

mapPartitionsWithIndex
def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

函数作用同mapPartitions，不过提供了分区的索引（代码中partid）。

val rdd = sc.parallelize(1 to 8,3)
rdd.mapPartitionsWithIndex{
(partid,iter)=>{
var part_map = scala.collection.mutable.Map[String,List[Int]]()
var part_name = "part_" + partid
part_map(part_name) = List[Int]()
while(iter.hasNext){
part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素
}
part_map.iterator
}
}.collect

OUTPUT

res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))

转自：https://blog.csdn.net/jasonwang_/article/details/80369222

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 swap分区内容关闭 Spark RDD 分区之HashPartitioner Spark RDD的默认分区数：（spark 2.1.0） Spark中rdd分区数量的决定因素 Spark 学习（四）RDD自定义分区和缓存【转发】Linux下如何查看当前支持的文件系统及各分区的文件系统类型【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量） Linux交换分区内存优化 Spark 键值对RDD操作 spark RDD底层原理