hive從查詢中獲取數據插入到表或動態分區

本文轉載自查看原文 2013-12-11 20:52 38216 hive

Hive的insert語句能夠從查詢語句中獲取數據，並同時將數據Load到目標表中。現在假定有一個已有數據的表staged_employees（雇員信息全量表），所屬國家cnty和所屬州st是該表的兩個屬性，我們做個試驗將該表中的數據查詢出來插入到另一個表employees中。

INSERT OVERWRITE TABLE employees
PARTITION (country = '中國', state = '北京')
SELECT * FROM staged_employees se
WHERE se.cnty = '中國' AND se.st = '北京';

由於使用了OVERWRITE關鍵字，目標表中原來相同partition中的所有數據被覆蓋，如果目標表中沒有partition，則整個表會被覆蓋。

如果把OVERWRITE關鍵字刪掉，或者替換成INTO，則hive會追加而不是替代原分區或原表中的數據，這個特性在Hive v0.8.0之后才支持。

當數據已經存在於hdfs上但不是我們想要的格式的時候，當進行的計算需要分好多步驟有必要存儲中間數據的時候，或者原數據沒有分區、有很多無效列需要過濾的時候，可以使用insert..select句型來完成這一轉換過程。

由於一個國家有很多個省份，如果想根據（國家country，地區partition）兩個維度對數據進行分區的話，這條SQL語句的執行個數應該等於地區的數目，比如中國有23個省就要對該SQL語句執行23次。因此hive對這個SQL語句進行了改造，只需要掃描一次原表就可以生成不同的輸出（多路輸出）。比如下面的SQL語句掃描了一次原始數據表，但是同時生成了3個省份的結果數據：

FROM staged_employees se
INSERT OVERWRITE TABLE employees
	PARTITION (country = '中國', state = '河北省')
	SELECT * WHERE se.cnty = '中國' AND se.st = '河北省'
INSERT OVERWRITE TABLE employees
	PARTITION (country = '中國', state = '陝西省')
	SELECT * WHERE se.cnty = '中國' AND se.st = '陝西省'
INSERT OVERWRITE TABLE employees
	PARTITION (country = '中國', state = '河南省')
	SELECT * WHERE se.cnty = 'US' AND se.st = '河南省';

通過縮進可以很清楚的看到，我們掃描了一次staged_employees表但是執行了3次不同的insert語句，這條大SQL語句是這么執行的：先通過from staged_employees表獲取一條記錄，然后執行每一個select子句，如果select子句驗證通過則執行相應的insert語句。注意這里的三條select子句是完全獨立執行的，並不是if .. then .. else的關系，這就意味着這3條select子句在某種情況下可能同時通過where檢測。

通過這種結構，原始表的數據能被拆分到目標表的不同partition中去。

如果原表的一條記錄滿足於其中一個給定的select .. where .. 子句，則該記錄將被寫到目標表的固定分區中。其實更進一步，每條Insert語句能將數據寫到不同的數據表中，不管這個表是否分區都一樣。

於是，就像一個過濾器一樣，原表的一些數據被寫到了很多輸出地址，而剩下的數據會被丟棄。

當然，你也可以混用Insert overwrite和insert into兩種不同的方法寫出數據。

向動態分區插入數據

但是問題還是沒有解決，中國有23個省，那么我們就需要寫23個insert into .. select ..where子句，這非常不現實。於是hive的一種叫做動態分區的特性就出現了，它能夠根據select出來的參數自動推斷將數據插入到那個分區中去。本文上面的兩種SQL語句設定分區的方式都叫做靜態分區插入。

將上一個SQL語句進行改動，會得到以下簡潔的新SQL語句：

INSERT OVERWRITE TABLE employees
PARTITION (country, state)
SELECT ..., se.cnty, se.st
FROM staged_employees se;

hive先獲取select的最后兩個位置的se.cnty和se.st參數值，然后將這兩個值填寫到Insert語句partition中的兩個country和state變量中，即動態分區是通過位置來對應分區值的。原始表select出來的值和輸出partition的值的關系僅僅是通過位置來確定的，和名字並沒有關系，比如這里se.cnty和county的名稱完全沒有關系。

上面的這條SQL語句是對兩個分區同時進行了動態設定，如果staged_employees表中有100個國家，每個國家有100個地區，那么該SQL語句自動對每個國家和地區建立相應的partition並插入數據，如果用手寫的話不現實。

只要位置正確，你可以混用動態分區和靜態分區值設定，比如下面這個例子，你可以靜態指定一個country值，但是state值采用動態的方法設定：

INSERT OVERWRITE TABLE employees
PARTITION (country = 'US', state)
SELECT ..., se.cnty, se.st
FROM staged_employees se
WHERE se.cnty = 'US';

注意：靜態分區值必須在動態分區值的前面！

使用hive動態分區的參數設定

動態分區功能默認是關閉的，而當它是打開狀態時，默認會工作在“strict”模式下，這種模式下要求至少指定一個靜態分區的值。這樣做是為了防止設計了大量partition的糟糕情況，舉個例子你使用時間戳來進行分區，竟然每一秒鍾都產生一個分區！還有其他的一些屬性設定用來限制類似的情況出現，如下表所示：

名稱	默認值	描述
hive.exec.dynamic.partition	false	設置為true用於打開動態分區功能
hive.exec.dynamic.partition.mode	strict	設置為nonstrict能夠讓所有的分區都動態被設定，否則的話至少需要指定一個分區值
hive.exec.max.dynamic.partitions.pernode	100	能被每個mapper或者reducer創建的最大動態分區的數目，如果一個mappre或者reducer試圖創建多余這個值的動態分區數目，會引發錯誤
hive.exec.max.dynamic.partitions	+1000	被一條帶有動態分區的SQL語句所能創建的動態分區總量，如果超出限制會報出錯誤
hive.exec.max.created.files	100000	全局能被創建文件數目的最大值，專門有一個hadoop計數器來跟蹤該值，如果超出會報錯

舉個例子，使用全動態分區的SQL語句序列如下所示，需要先設定一些必要的參數才可以：

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
---文章來自瘋狂的螞蟻www.crazyant.net

INSERT OVERWRITE TABLE employees
PARTITION (country, state)
SELECT ..., se.cty, se.st
FROM staged_employees se;

總結

使用from .. insert.. select ..where結構能夠從一個數據表中抽取數據，將結果插入到不同的表和分區中，而使用動態分區能夠讓hive根據select最末幾個位置的值自動設定目標分區的值，使用動態分區需要設定一些hive運行參數。

轉自：http://www.crazyant.net/1197.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive從查詢中獲取數據插入到表或動態分區 shell腳本中向hive動態分區插入數據 Hive使用動態分區插入數據 Hive通過查詢語句向表中插入數據注意事項 Hive 分區表導入數據與動態分區 MyBatis 插入和查詢動態表名中的數據 Hive查詢結果批量插入分區 hive將查詢結果插入到表內 hive分區表插入一條測試數據數據插入動態分區