hive實現全局排序使用sort by+order by還是直接使用order by表較好

本文轉載自查看原文 2020-11-02 15:07 670 Hive

如果數據量較小的話，直接使用order by即可。實際場景中一般先使用sort by再使用order by效率更高一些。

sort by只能保證在reduce內有序。

hive實現全排序：

1.要么用order by，但這樣默認了reducer個數為1，效率低下。

2.要么用sort by+order by，sort by過程可以設置reducer個數（n），order by過程用n個reducer的輸出文件進行一次全排序，得到最終的結果。

參考：

https://blog.csdn.net/xxzhangx/article/details/105501015

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Order by vs Sort by in Hive Hive的order by和sort by 排序語句order by 使用 mysql 排序使用索引（order by） Hive中order by sort by distribute by cluster by用法 hive中order by,sort by, distribute by, cluster by的用法 Oracle使用order by排序關於null值處理 Django 學習筆記使用order_by排序 SQL SERVER 子查詢使用Order By；按In排序如何在left Join 中使用order排序