Spark 獲取指定分區內的數據

本文轉載自查看原文 2020-05-22 20:44 1199 Spark 技術

K:有什么用? 內存不足可以用.

1.上代碼

我是1-10分為3個分區 , 並取出下標號為0 的分區的數據 ,然后Type ,要想獲得自己想要的分區 , 執行

這里返回的是新 RDD , 並且支持 map等操作 , 但是你只能操作一個分區了 . 在某些內存不夠用的情況下 , 可以采用這種分階段操作的方法.

(題外話 , 我們都知道Spark是惰性加載 , 所以這里如果是生產環境理應存在shuffer).

.mapPartitionsWithIndex { (index, iter) =>
      if (index == 0) {
        iter
      } else {
        Iterator.empty
      }
    }

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 oracle 在分區內查詢數據查看spark RDD 各分區內容 SQL Server獲取指定行的數據 wireshark 獲取指定進程id的數據 django獲取指定列的數據 Django Model獲取指定列的數據 DataTables獲取指定元素的行數據 Django Models隨機獲取指定數量數據方法 python之request請求后響應的數據從中獲取指定值 easyUI中datagrid控制獲取指定行數的數據