Hive中實現SELECT TOP N的方法

本文轉載自查看原文 2020-03-23 10:45 848 hive

TOP N是實現最大/小N條數據。

鑒於Hive提供了limit關鍵字，配合排序功能就很容易實現了。

但是Hive中order by只能生成1個reduce，如果表的數據量太大，order by 就會有心無力

例如SQL：select a from t_test order by a limit 10;

控制台會輸出：Number of reduce tasks determined at compile time: 1

說明啟動的reduce數是編譯時決定的，查看該SQL的執行計划，發現只啟動1個Job

如果表數據量非常大，而我們只想取Top 10，那么這么做就非常不合理

這樣就可以考慮sort by ，就可以解決這個問題了

select a from t_test sort by a limit 10;

控制台會輸出：Number of reduce tasks not specified. Estimated from input data size: 1

說明reduce數不是編譯時決定的，而是根據輸入的文件大小動態決定的。

sort by可以啟動多個reduce，每個reduce做局部排序，這對於sort by limit N已經夠了。

從執行計划來看，sort by limit N啟動了兩個Job，第一個Job在每個reduce中做局部排序，分別取出Top N，然后第二個Job做全局排序，取出Top N得出想要的結果。

假設：第一個Job啟動了x個reduce，第二個Job對x個reduce排好序的x * N條數據做全局排序，取Top N ，從而得到想要的結果。

這樣就大大提升了select 效率。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySQL中如何實現select top n ----Limit MySQL中如何實現select top n hive top n Hive分組取Top N Hive sql 查詢數據庫查詢 top-n 如何提高性能SELECT TOP n * FROM [tablename] ORDER BY NEWID() SQL Server中的分頁查詢 select top WPF 在畫布中布局N行N列的實現方法 ORACLE中的TOP-N查詢（TOP-N分析）、分頁查詢 hive中select中DISTINCT的技巧和使用