查看spark RDD 各分區內容

本文轉載自查看原文 2018-12-31 19:25 924 Scala/ hadoop/spark

mapPartitionsWithIndex
def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]

函數作用同mapPartitions，不過提供了分區的索引（代碼中partid）。

val rdd = sc.parallelize(1 to 8,3)
rdd.mapPartitionsWithIndex{
(partid,iter)=>{
var part_map = scala.collection.mutable.Map[String,List[Int]]()
var part_name = "part_" + partid
part_map(part_name) = List[Int]()
while(iter.hasNext){
part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素
}
part_map.iterator
}
}.collect

OUTPUT

res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))

轉自：https://blog.csdn.net/jasonwang_/article/details/80369222

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 swap分區內容關閉 Spark RDD 分區之HashPartitioner Spark 獲取指定分區內的數據 Linux 新建分區 & 查看各分區文件系統類型 Spark：RDD分區數和分區器 Spark RDD的默認分區數：（spark 2.1.0） Spark(九)【RDD的分區和自定義Partitioner】 Spark中rdd分區數量的決定因素 Spark 學習（四）RDD自定義分區和緩存 oracle 在分區內查詢數據