使用order by會引發全局排序
select * from baidu_click order by click desc; |
使用distribute和sort進行分組排序
select * from baidu_click distribute by product_line sort by click desc; |
distribute by + sort by就是該替代方案,被distribute by設定的字段為KEY,數據會被HASH分發到不同的reducer機器上,然后sort by會對同一個reducer機器上的每組數據進行局部排序。