一起學Hive——詳解四種導入數據的方式

本文轉載自查看原文 2018-10-08 06:29 9254 Hive導入數據

在使用Hive的過程中，導入數據是必不可少的步驟，不同的數據導入方式效率也不一樣，本文總結Hive四種不同的數據導入方式：

從本地文件系統導入數據
從HDFS中導入數據
從其他的Hive表中導入數據
創建表的同時導入數據

使用導入數據時，會使用到into和overwrite into兩個關鍵字，into是在當前表追加數據，而overwrite into是刪除當前表的數據然后在導入數據。

從本地系統導入數據

在Hive中創建load_data_local表，該表中有兩個字段，一個是name一個是age。創建表的SQL語句如下:

create table if not exists load_data_local(name string,age int)  
row format delimited fields terminated by ' '  
lines terminated by '\n';

在本地文件系統中創建一個load_data_local.txt的文件，然后往里面寫入數據，數據之間用空格分隔。數據為：

zhangsan 30
lisi 50
wangwu 60
peiqi 6

執行load data local inpath '/home/hadoop/hive_test/load_data_local.txt' into table load_data_local;命令，即可將本地系統中的文件的數據導入到Hive表中。

在使用從本地系統導入數據大Hive表中時，文件的路徑必須使用絕對路徑。

有兩種方式驗證數據是否導入成功，一種是在Hive中執行select * from load_data_local。另外一種是查看hdfs文件系統中的load_data_local目錄下面是否有剛剛上傳的load_data_local.txt文件，查看命令為：hadoop fs -ls /user/hive/warehouse/bigdata17.db/load_data_local，結果為：

18/10/07 02:37:11 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rwxr-xr-x   3 root supergroup         38 2018-10-07 02:24 /user/hive/warehouse/bigdata17.db/load_data_local/load_data_local.txt

從HDFS中導入數據

在Hive中創建load_data_hdfs表，表中有兩個字段，分別是name和age。創建表的SQL如下：

create table if not exists load_data_hdfs(name string,age int)  
row format delimited fields terminated by ' '  
lines terminated by '\n';

在本地文件系統創建文件load_data_hdfs.txt文件，然后往里面寫入數據。

將load_data_hdfs.txt文件上傳到HDFS的data目錄下面，命令為：hadoop fs -put load_data_hdfs.txt /data

在Hive中執行命令：
load data inpath 'data/load_data_hdfs.txt' into table load_data_hdfs;
即可將數據導入到Hive的load_data_hdfs表中。
從本地系統導入數據和從hdfs文件系統導入數據用的命令都是load data，但是從本地系統導入數據要加local關鍵字，如果不加則是從hdfs文件系統導入數據。

從hdfs文件系統導入數據成功后，會把hdfs文件系統中的load_data_hdfs.txt文件刪除掉。

從其他的Hive表中導入數據

這種方式要求目標表和源表都必須存在。
創建一個要導入數據的目標表，SQL如下：

create table if not exists load_data_local2(name string,age int) 
row format delimited fields terminated by ' '  
lines terminated by '\n';

導入數據的SQL：

insert into table load_data_local2 select * from load_data_local;

這種數據導入方式也適用於分區表和分桶表的情況。本文只介紹導入分區表的情況，導入數據到分區表分為靜態分區和動態分區兩種方式。

我們先創建一個分區表，SQL如下：

create table if not exists load_data_partition(name string)  
partitioned by(age int)  
row format delimited fields terminated by ' '  
lines terminated by '\n';

將數據導入分區表必須先在Hive中執行下面兩句語句：

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

靜態方式將load_data_local表的數據導入到load_data_partition表的sql語句如下：

insert into table load_data_partition partition(age=25) select name from load_data_local;

這種方式必須顯示的指定分區值，如果分區有很多值，則必須執行多條SQL，效率低下。

動態方式將load_data_local表的數據導入到load_data_partition表的sql語句如下：

insert overwrite table load_data_partition partition select name,age from load_data_local;

這種方式要注意目標表的字段必須和select查詢語句字段的順序和類型一致，特別是分區字段的類型要一致，否則會報錯。

一張表有兩個以上的分區字段，如果同時使用靜態分區和動態分區導入數據，靜態分區字段必須寫在動態分區字段之前。

Hive還支持一條SQL語句中將數據插入多個表的功能，只需將from關鍵字前置即可：

from load_data_local 
insert overwrite table load_data_partition partition (age)
  select name,age
insert overwrite table load_data_local3 
  select *

上面的sql語句同時插入到表load_data_partition和load_data_local3表中。這種方式非常高效，對於大數據量並且要將數據插入到多個表的情況下，建議用這種方式。

創建表的同時導入數據

這種方式的創建表的表結構來自於select查詢語句的查詢字段。

創建load_data_local3並將load_data_loaca的數據導入到load_data_local3表中：

create table load_data_local3 as select * from load_data_local;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive導入數據的四種方法 POST提交數據的四種方式四種常見的 POST 提交數據方式爬蟲之四種數據解析方式數據庫的四種連接方式 Hive三種不同的數據導出的方式 [一起學Hive]之十三-Hive整合HBase，操作HBase表一起學Hive——總結常用的Hive優化技巧 Dubbo注冊中心的四種配置方式詳解 JAVA中的四種JSON解析方式詳解