hive實現全局排序使用sort by+order by還是直接使用order by表較好


如果數據量較小的話,直接使用order by即可 。實際場景中一般先使用sort by再使用order by效率更高一些 。

sort by只能保證在reduce內有序 。

hive實現全排序:

1.要么用order by,但這樣默認了reducer個數為1,效率低下。

2.要么用sort by+order by,sort by過程可以設置reducer個數(n),order by過程用n個reducer的輸出文件進行一次全排序,得到最終的結果。

參考:

https://blog.csdn.net/xxzhangx/article/details/105501015


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM