Spark 獲取指定分區內的數據


K:有什么用? 內存不足可以用.

 

1.上代碼

我是1-10分為3個分區 , 並取出下標號為0 的分區的數據 ,然后Type  ,要想獲得自己想要的分區 , 執行

 

這里返回的是新 RDD  , 並且支持 map等操作 , 但是你只能操作一個分區了 . 在某些內存不夠用的情況下 , 可以采用這種分階段操作的方法.

(題外話 , 我們都知道Spark是惰性加載 , 所以這里如果是生產環境理應存在shuffer).

.mapPartitionsWithIndex { (index, iter) =>
      if (index == 0) {
        iter
      } else {
        Iterator.empty
      }
    }


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM