RDD 五大特性

本文轉載自查看原文 2019-07-21 16:01 433 spark/ RDD五大特性

一組分區：RDD由很多partition構成，有多少partition就對應有多少task

一個函數：對RDD做計算，相當於對RDD的每個split或partition做計算

RDD之間有依賴關系，可溯源

一個Partitioner：即RDD的分片函數，如果RDD里面存的數據是key-value形式，則可以傳遞一個自定義的Partitioner進行重新分區

一個列表：存儲存取每個Partition的優先位置（preferred location），計算每個split時，在split所在機器的本地上運行task是最好的，避免了數據的移動，split有多個副本，所以preferred location不止一個

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 RDD的五大特點 Spark RDD詳解 | RDD特性、lineage、緩存、checkpoint、依賴關系 AngularJS 五大特性，加快 Web 應用開發 OOP的四大特性和五大原則 Java 三大特性、五大原則面向對象三大基本特性,五大基本原則面向對象三大基本特性,五大基本原則特性 Spark 鍵值對RDD操作 pyspark 通過list 構建rdd