SparkContext.union 與 RDD.union


RDD.union,和SparkContext.union都可以將多個RDD聚合成一個UnionRDD。

但不同的是,RDD.union在每次操作時,會創建一個新的數據集合,生成新的RDD,新的RDD和原有RDD血統不一致。

SparkContext.union可以將所有需要聚合的RDD,直接生成一個新的聚合RDD,將原有數據聚合后僅生成一個新的RDD。

SparkContext.union的特性,可以避免大量RDD利用Reduce做union時導致的溢出的錯誤。同時提高效率。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM