從零自學Hadoop(17)：Hive數據導入導出，集群數據遷移下

本文轉載自查看原文 2016-01-19 13:25 6887 01.Hadoop/ 從零自學Hadoop/ Linux/ 02.Linux/ 03.Hive/ 安裝/ Hadoop/ 自學

閱讀目錄

序
將查詢的結果寫入文件系統
集群數據遷移一
集群數據遷移二
系列索引

本文版權歸mephisto和博客園共有，歡迎轉載，但須保留此段聲明，並給出原文鏈接，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

序

上一篇，我們介紹了Hive的數據多種方式導入，這樣我們的Hive就有了數據來源了，但有時候我們可能需要純粹的導出，或者集群Hive數據的遷移（不同集群，不同版本），我們就可以通過這兩章的知識來實現。

　下面我們開始介紹hive的數據導出，以及集群Hive數據的遷移進行描述。

將查詢的結果寫入文件系統

一：說明

　　將上篇中從其他表導入語法進行簡單的修改，就可以將查詢的結果寫入到文件系統。

二：語法：
Standard syntax:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1
  [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)
  SELECT ... FROM ...
 
Hive extension (multiple inserts):
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...
 
 
row_format
  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
        [NULL DEFINED AS char] (Note: Only available starting with Hive 0.13)
三：寫入到本地

　　如果使用LOCAL，則數據會寫入到本地

四：寫入到集群

　　如果不使用LOCAL,則數據會寫到指定的HDFS中，如果沒寫全路徑，則使用Hadoop的配置項fs.default.name （NameNode的URI）。

五：實戰

　　修改tmp文件夾權限（這里只是測試，所以使用最大權限）
chmod 777 tmp
　　進入Hive
sudo -u hdfs hive
　　將上一篇中的score表數據導出到本地
insert overwrite local directory  '/data/tmp/score' select * from score;
　　我們可以看到/data/tmp/score/目錄下有文件。
cd /data/tmp/score
ll
　　這樣我們就把hive的數據導出到本地了。

　　下面我們使用不帶local參數的命令，將hive表數據導到hdfs中
insert overwrite  directory  '/data/tmp/score' select * from score;
　　我們使用hdfs的ls命令查看
hadoop fs -ls /data/tmp/score
　　這里文件只有一個，和上面的不一樣，但總的內容是一樣的，上面同樣的數據導出，有時候也只有一個文件。這里就不做考究了。

集群數據遷移一

一：介紹

　　在官網里，我們可以看到EXPORT和IMPORT，該功能從Hive0.8開始加入進來。

二：Export/Import

　　導出命令根據元數據導出表或者分區，輸出位置可以是另一個Hadoop集群或者HIVE實例。支持帶有分區的表。導出的元數據存儲在目標目錄，數據文件存儲在子目錄。

　　導入導出的源和目標的元數據存儲DBMS可以是不同的關系型數據庫。

三：Export語法
EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]
  TO 'export_target_path'
四：Import語法
IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]]
  FROM 'source_path'
  [LOCATION 'import_target_path']
五：官方例子

　　簡單導入導出
export table department to 'hdfs_exports_location/department';
import from 'hdfs_exports_location/department';
　　改名導入導出
export table department to 'hdfs_exports_location/department';
import table imported_dept from 'hdfs_exports_location/department';
　　分區導出
export table employee partition (emp_country="in", emp_state="ka") to 'hdfs_exports_location/employee';
import from 'hdfs_exports_location/employee';
　　分區導入
export table employee to 'hdfs_exports_location/employee';
import table employee partition (emp_country="us", emp_state="tn") from 'hdfs_exports_location/employee';
　　指定導入位置
export table department to 'hdfs_exports_location/department';
import table department from 'hdfs_exports_location/department' 
       location 'import_target_location/department';
　　作為外部表導入
export table department to 'hdfs_exports_location/department';
import external table department from 'hdfs_exports_location/department';

集群數據遷移二

一：介紹

　　雖然官方的Export/Import命令很強大，但在實際使用中，可能是版本的不同，會出現無法導入的情況，自己在這塊也琢磨了下，總結出自己的一套帶有分區的Hive表數據遷移方案，該方案在Cloudera和Hontorworks的集群中成功遷移過，Hive版本也不一致。

二：導出數據

　　由於Cloudera的發行版本CDH-5.3.3的Hive版本低於0.8所以用這個作為數據源。

　　創建帶分區表score
create table score (
  id                int,
  studentid       int,
  score              double
)
partitioned by (openingtime string);
　　根據上一篇中導入數據的方式導入7，8月數據
load data local inpath '/data/tmp/score_7.txt' overwrite into table score PARTITION (openingtime=201507);
　　參考我們上面的導出到本地還是放在/data/tmp/score下
insert overwrite local directory  '/data/tmp/score' select * from score;
三：遷移數據

　　在另外一個集群新建/data/tmp目錄
 mkdir  -p /data/tmp/score
　　拷貝數據
 scp /data/tmp/score/* root@h188:/data/tmp/score/
　　查看
cd /data/tmp/score
ll
四：創建分區表和沒有分區的臨時表

　　被導入的集群是Hortonworks的HDP-2.7.1發行版本。

　　分區表就是我們最終的目標表，沒有分區的臨時表時過度用的。

　　進入Hive
sudo -u hdfs hive
　　創建帶分區的表
create table score (
  id                int,
  studentid       int,
  score              double
)
partitioned by (openingtime string);
　　創建不帶分區的臨時表
 create table score1(
     id int,
     studentid int,
     score double,
     openingtime string
);
五：將數據導入臨時表
load data local inpath '/data/tmp/score' into table score1;
　　我們查下導進來的數據
select * from score1;
六：從臨時表導入到分區表
set  hive.exec.dynamic.partition=true;   
set  hive.exec.dynamic.partition.mode=nonstrict;   
set  hive.exec.max.dynamic.partitions.pernode=10000; 
#導入
insert overwrite table score partition(openingtime) select * from score1;
查詢
select * from score;
我們在hdfs中查看下hive的文件
hadoop fs -ls -R /apps/hive/warehouse/score
可以明顯的看到根據openingtime分區了。

七：刪除臨時表
drop table score1
八：刪除臨時數據
rm -rf /data/tmp/score
這樣我們的Hive集群數據遷移告一段落。

--------------------------------------------------------------------

　　到此，本章節的內容講述完畢。

系列索引

　　【源】從零自學Hadoop系列索引

本文版權歸mephisto和博客園共有，歡迎轉載，但須保留此段聲明，並給出原文鏈接，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從零自學Hadoop(16)：Hive數據導入導出，集群數據遷移上 [Hadoop大數據]——Hive數據的導入導出 042 將數據導入hive，將數據從hive導出如何導出和導入mysql數據(數據遷移) 如何導出和導入mysql數據(數據遷移) 把kafka數據從hbase遷移到hdfs，並按天加載到hive表(hbase與hadoop為不同集群) hadoop hdfs 數據遷移到其他集群 redis 數據導入導出，實例內db遷移 hive建表與數據的導入導出 kettle連接Hive中數據導入導出（6）