K:有什么用? 內存不足可以用.
1.上代碼
我是1-10分為3個分區 , 並取出下標號為0 的分區的數據 ,然后Type ,要想獲得自己想要的分區 , 執行
這里返回的是新 RDD , 並且支持 map等操作 , 但是你只能操作一個分區了 . 在某些內存不夠用的情況下 , 可以采用這種分階段操作的方法.
(題外話 , 我們都知道Spark是惰性加載 , 所以這里如果是生產環境理應存在shuffer).
.mapPartitionsWithIndex { (index, iter) => if (index == 0) { iter } else { Iterator.empty } }