如果數據量較小的話,直接使用order by即可 。實際場景中一般先使用sort by再使用order by效率更高一些 。
sort by只能保證在reduce內有序 。
hive實現全排序:
1.要么用order by,但這樣默認了reducer個數為1,效率低下。
2.要么用sort by+order by,sort by過程可以設置reducer個數(n),order by過程用n個reducer的輸出文件進行一次全排序,得到最終的結果。
參考:
https://blog.csdn.net/xxzhangx/article/details/105501015