spark中union 和 unionAll看起來相似,但是實際上操作上結果上都有區別。
union會把數據都掃一遍,然后剔除重復的數據;
然而unionAll直接把兩份數據粘貼返回,時間上會快很多。
通過交並補來理解:
union是返回兩個數據集的並集,不包括重復行,要求列數要一樣,類型可以不同
unionAll是返回兩個數據集的並集,包括重復行
Intersect是返回兩個數據集的交集,不包括重復行
Minus是返回兩個數據集的差集,不包括重復行
spark中union 和 unionAll看起來相似,但是實際上操作上結果上都有區別。
union會把數據都掃一遍,然后剔除重復的數據;
然而unionAll直接把兩份數據粘貼返回,時間上會快很多。
通過交並補來理解:
union是返回兩個數據集的並集,不包括重復行,要求列數要一樣,類型可以不同
unionAll是返回兩個數據集的並集,包括重復行
Intersect是返回兩個數據集的交集,不包括重復行
Minus是返回兩個數據集的差集,不包括重復行
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。