Hive有一個嚴格模式,在嚴格模式下會對可能產生較大查詢結果的語句做限制,禁止其提交執行。
一、切換嚴格模式
查看當前的模式:
hive> set hive.mapred.mode; hive.mapred.mode is undefined
未定義即為false,即no-strict模式。
開啟嚴格模式:
set hive.mapred.mode=strict;
關閉嚴格模式:
set hive.mapred.mode=undefined;
二、嚴格模式嚴格在哪里
1. 對分區表的查詢必須使用到分區相關的字段
分區表的數據量通常都比較大,對分區表的查詢必須使用到分區相關的字段,不允許掃描所有分區,想想也是如果掃描所有分區的話那么對表進行分區還有什么意義呢。
當然某些特殊情況可能還是需要掃描所有分區,這個時候就需要記得確保嚴格模式被關閉。
2. order by必須帶limit
因為要保證全局有序需要將所有的數據拉到一個Reducer上,當數據集比較大時速度會很慢。個人猜測可能是設置了limit N之后就會有一個很簡單的優化算法:每個Reducer排序取N然后再合並排序取N即可,可大大減少數據傳輸量。
3. 禁止笛卡爾積查詢(join必須有on連接條件)
hive不會對where中的連接條件優化為on,所以join必須帶有on連接條件,不允許兩個表直接相乘。
.