ORDER BY

hive中的ORDER BY語句和關系數據庫中的sql語法相似。他會對查詢結果做全局排序，這意味着所有的數據會傳送到一個Reduce任務上，這樣會導致在大數量的情況下，花費大量時間。

與數據庫中 ORDER BY 的區別在於在hive.mapred.mode = strict模式下，必須指定 limit 否則執行會報錯。

hive> set hive.mapred.mode=strict;
hive> select * from test order by id;
FAILED: SemanticException 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

例子：

hive> set hive.mapred.mode=unstrict;
hive> select * from test order BY id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 1   Cumulative CPU: 1.88 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 880 msec
OK
1   a
1   a
2   b
2   b
3   c
3   c
4   d
4   d
Time taken: 24.609 seconds, Fetched: 8 row(s)

從上面的日志可以看到：啟動了一個reduce進行全局排序。

SORT BY

SORT BY不是全局排序，其在數據進入reducer前完成排序，因此在有多個reduce任務情況下，SORT BY只能保證每個reduce的輸出有序，而不能保證全局有序。

注意：hive要求DISTRIBUTE BY語句出現在SORT BY語句之前。

你可以通過設置mapred.reduce.tasks的值來控制reduce的數，然后對reduce輸出的結果做二次排序。

例子：

hive> set mapred.reduce.tasks=3;
hive> select * from test sort BY id ; 
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.48 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 480 msec
OK
1   a
2   b
3   c
4   d
2   b
3   c
4   d
1   a
Time taken: 29.574 seconds, Fetched: 8 row(s)

從上面的日志可以看到：啟動了三個reduce分別排序，最后的結果不是有序的。

DISTRIBUTE BY with SORT BY

DISTRIBUTE BY能夠控制map的輸出在reduce中如何划分。其可以按照指定的字段對數據進行划分到不同的輸出reduce/文件中。

DISTRIBUTE BY和GROUP BY有點類似，DISTRIBUTE BY控制reduce如何處理數據，而SORT BY控制reduce中的數據如何排序。

注意：hive要求DISTRIBUTE BY語句出現在SORT BY語句之前。

例子：

hive> select * from test distribute BY id sort by id asc;  
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.24 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 240 msec
OK
3   c
3   c
1   a
1   a
4   d
4   d
2   b
2   b
Time taken: 29.89 seconds, Fetched: 8 row(s)

從上面的日志可以看到：啟動了三個reduce分別排序，最后的結果不是有序的。

CLUSTER BY來代替

當DISTRIBUTE BY的字段和SORT BY的字段相同時，可以用CLUSTER BY來代替 DISTRIBUTE BY with SORT BY。

注意：CLUSTER BY不能添加desc或者asc。

例子：

hive> select * from test cluster by id asc;              
FAILED: ParseException line 1:33 extraneous input 'asc' expecting EOF near '<EOF>'

hive> select * from test cluster by id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.58 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 580 msec
OK
3   c
3   c
1   a
1   a
4   d
4   d
2   b
2   b
Time taken: 30.646 seconds, Fetched: 8 row(s)

從上面的日志可以看到：啟動了三個reduce分別排序，最后的結果不是有序的。

怎樣讓最后的結果是有序的呢？

可以這樣做：

hive> select a.* from (select * from test cluster by id ) a order by a.id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.5 sec   HDFS Read: 305 HDFS Write: 448 SUCCESS
Job 1: Map: 1  Reduce: 1   Cumulative CPU: 1.96 sec   HDFS Read: 1232 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 460 msec
OK
1   a
1   a
2   b
2   b
3   c
3   c
4   d
4   d
Time taken: 118.261 seconds, Fetched: 8 row(s)

總結

ORDER BY是全局排序，但在數據量大的情況下，花費時間會很長
SORT BY是將reduce的單個輸出進行排序，不能保證全局有序
DISTRIBUTE BY可以按指定字段將數據划分到不同的reduce中
當DISTRIBUTE BY的字段和SORT BY的字段相同時，可以用CLUSTER BY來代替 DISTRIBUTE BY with SORT BY。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive with as 語法 Hive 基本語法 hive 基本語法 HIVE基本語法以及HIVE分區 hive 中實現分組排序（去重操作） hive中幾個排序方式的區別 hive排序 hive 排序【hive】——Hive sql語法詳解 Hive中case when的兩種語法