1)A list of partitions
一組分區:RDD由很多partition構成,有多少partition就對應有多少task
2)A function for computing each split
一個函數:對RDD做計算,相當於對RDD的每個split或partition做計算
3)A list of dependencies on other RDDs
RDD之間有依賴關系,可溯源
4)Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
一個Partitioner:即RDD的分片函數,如果RDD里面存的數據是key-value形式,則可以傳遞一個自定義的Partitioner進行重新分區
5)Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
一個列表:存儲存取每個Partition的優先位置(preferred location),