RDD.union,和SparkContext.union都可以將多個RDD聚合成一個UnionRDD。
但不同的是,RDD.union在每次操作時,會創建一個新的數據集合,生成新的RDD,新的RDD和原有RDD血統不一致。
SparkContext.union可以將所有需要聚合的RDD,直接生成一個新的聚合RDD,將原有數據聚合后僅生成一個新的RDD。
SparkContext.union的特性,可以避免大量RDD利用Reduce做union時導致的溢出的錯誤。同時提高效率。
RDD.union,和SparkContext.union都可以將多個RDD聚合成一個UnionRDD。
但不同的是,RDD.union在每次操作時,會創建一個新的數據集合,生成新的RDD,新的RDD和原有RDD血統不一致。
SparkContext.union可以將所有需要聚合的RDD,直接生成一個新的聚合RDD,將原有數據聚合后僅生成一個新的RDD。
SparkContext.union的特性,可以避免大量RDD利用Reduce做union時導致的溢出的錯誤。同時提高效率。
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。