數據遷移之Sqoop

本文轉載自查看原文 2018-06-02 23:39 2052 ETL工具/ Sqoop

一簡介

Apache Sqoop（TM）是一種用於在Apache Hadoop和結構化數據存儲（如關系數據庫）之間高效傳輸批量數據的工具。

官方下載地址：http://www.apache.org/dyn/closer.lua/sqoop/1.4.7

1. Sqoop是什么

Sqoop：SQL-to-Hadoop

連接傳統關系型數據庫和 Hadoop 的橋梁

把關系型數據庫的數據導入到 Hadoop 系統 ( 如 HDFS HBase 和 Hive) 中；

把數據從 Hadoop 系統里抽取並導出到關系型數據庫里。

利用MapReduce加快數據傳輸速度：將數據同步問題轉化為MR作業

批處理方式進行數據傳輸：實時性不夠好

2. Sqoop優勢

高效、可控地利用資源

任務並行度，超時時間等

數據類型映射與轉換

可自動進行，用戶也可自定義

支持多種數據庫

MySQL，Oracle，PostgreSQL

3. Sqoop import

將數據從關系型數據庫導入Hadoop中

步驟1：Sqoop與數據庫Server通信，獲取數據庫表的元數據信息；

步驟2：Sqoop啟動一個Map-Only的MR作業，利用元數據信息並行將數據寫入Hadoop。

特點：可以指定hdfs路徑，指定關系數據庫的表，字段，連接數（不壓垮數據庫），可以導入多個表，支持增量導入（手動指定起始id、事件，或自動記錄上次結束位置，自動完成增量導入）

4. Sqoop Export

將數據從Hadoop導入關系型數據庫導中

步驟1：Sqoop與數據庫Server通信，獲取數據庫表的元數據信息；

步驟2：並行導入數據：

將Hadoop上文件划分成若干個split；

每個split由一個Map Task進行數據導入。

5. Sqoop與其他系統結合

Sqoop可以與Oozie、Hive、Hbase等系統結合；

二、sqoop的安裝與使用

Sqoop是一個轉換工具，用於在關系型數據庫與HDFS之間進行數據轉換。強大功能見下圖

以下操作就是使用sqoop在mysql和hdfs之間轉換數據。

1. 安裝

首先就是解壓縮，重命名為sqoop，然后在文件/etc/profile中設置環境變量SQOOP_HOME。

把mysql的jdbc驅動mysql-connector-java-5.1.10.jar復制到sqoop項目的lib目錄下。

2. 重命名配置文件

在${SQOOP_HOME}/conf中執行命令

mv sqoop-env-template.sh sqoop-env.sh 生效即可，不用改內容

在conf目錄下，有兩個文件sqoop-site.xml和sqoop-site-template.xml內容是完全一樣的，不必在意，我們只關心sqoop-site.xml即可。

3. 修改配置文件sqoop-env.sh

內容如下

#Set path to where bin/hadoop is available

export HADOOP_COMMON_HOME=/usr/local/hadoop/

#Set path to where hadoop-*-core.jar is available

export HADOOP_MAPRED_HOME=/usr/local/hadoop

#set the path to where bin/hbase is available

export HBASE_HOME=/usr/local/hbase

#Set the path to where bin/hive is available

export HIVE_HOME=/usr/local/hive

#Set the path for where zookeper config dir is

export ZOOCFGDIR=/usr/local/zk

好了，搞定了，下面就可以運行了。

安裝通過查看版本 sqoop version

測試連接mysql

sqoop list-databases -connect jdbc:mysql://node001:3306/ -username root -password 123

4. 數據從mysql導入到hdfs中

在mysql中數據庫test中有一張表是aa，表中的數據如下圖所示

現在我們要做的是把aa中的數據導入到hdfs中，執行命令如下

格式： Import 連接數據庫（導入文件類型）表名列名目標位置作業數

sqoop ##sqoop命令

import ##表示導入

--connect jdbc:mysql://ip:3306/sqoop ##告訴jdbc，連接mysql的url

--username root ##連接mysql的用戶名

--password admin ##連接mysql的密碼

--table aa ##從mysql導出的表名稱

--fields-terminated-by '\t' ##指定輸出文件中的行的字段分隔符

-m 1 ##復制過程使用1個map作業

以上的命令中后面的##部分是注釋，執行的時候需要刪掉；另外，命令的所有內容不能換行，只能一行才能執行。以下操作類似。

該命令執行結束后，觀察hdfs的目錄/user/{USER_NAME}，下面會有一個文件夾是aa，里面有個文件是part-m-00000。該文件的內容就是數據表aa的內容，字段之間是使用制表符分割的。

import

--connect

jdbc:mysql://node001:3306/test

--username

root

--password

123

--as-textfile

--columns

id,name,msg

--table

psn

--delete-target-dir

--target-dir

/sqoop/data

-m

命令：sqoop --options-file sqoop1

5. 數據從hdfs導出到mysql中

把上一步導入到hdfs的數據導出到mysql中。我們已知該文件有兩個字段，使用制表符分隔的。那么，我們現在數據庫test中創建一個數據表叫做bb，里面有兩個字段。然后執行下面的命令

sqoop

export ##表示數據從hive復制到mysql中

--connect jdbc:mysql://192.168.1.113:3306/test

--username root

--password admin

--table bb ##mysql中的表，即將被導入的表名稱

--export-dir '/user/root/aa/part-m-00000' ##hive中被導出的文件

--fields-terminated-by '\t' ##hive中被導出的文件字段的分隔符

命令執行完后，再去觀察表bb中的數據，是不是已經存在了！

export

--connect

jdbc:mysql://node001/test

--username

root

--password

123

-m

--table

h_psn

--columns

id,name,msg

--export-dir

/sqoop/data

l Hadoop啟動時，出現 Warning:$HADOOP_HOME is deprecated 的原因

我們在執行腳本start-all.sh，啟動hadoop時，有時會出現如下圖的警告信息

雖然不影響程序運行，但是看到這樣的警告信息總是覺得自己做得不夠好，怎么去掉哪？

我們一步步分享，先看一下啟動腳本start-all.sh的源碼，如下圖

雖然我們看不懂shell腳本的語法，但是可以猜到可能和文件hadoop-config.sh有關，我們再看一下這個文件的源碼。該文件特大，我們只截取最后一部分，見下圖

從圖中的紅色框框中可以看到，腳本判斷變量HADOOP_HOME_WARN_SUPPRESS和HADOOP_HOME的值，如果前者為空，后者不為空，則顯示警告信息“Warning……”。

我們在安裝hadoop是，設置了環境變量HADOOP_HOME造成的。

網上有的說新的hadoop版本使用HADOOP_INSTALL作為環境變量，我還沒有看到源代碼，並且擔心其他框架與hadoop的兼容性，所以暫時不修改，那么只好設置HADOOP_HOME_WARN_SUPPRESS的值了。

修改配置文件/etc/profile（我原來一直在這里設置環境變量，操作系統是rhel6.3），增加環境變量HADOOP_HOME_WARN_SUPPRESS，如下圖

保存退出，再次啟動hadoop，就不會出現警告信息了，如下圖

1、列出mysql數據庫中的所有數據庫

sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 000000

2、連接mysql並列出數據庫中的表

sqoop list-tables --connect jdbc:mysql://localhost:3306/test --username dyh --password 000000

3、將關系型數據的表結構復制到hive中

sqoop create-hive-table --connect jdbc:mysql://localhost:3306/test --table users --username dyh

--password 000000 --hive-table users --fields-terminated-by "\0001" --lines-terminated-by "\n";

參數說明：

--fields-terminated-by "\0001" 是設置每列之間的分隔符，"\0001"是ASCII碼中的1，它也是hive的默認行內分隔符，而sqoop的默認行內分隔符為"，"

--lines-terminated-by "\n" 設置的是每行之間的分隔符，此處為換行符，也是默認的分隔符；

注意：只是復制表的結構，表中的內容沒有復制

4、將數據從關系數據庫導入文件到hive表中

sqoop import --connect jdbc:mysql://localhost:3306/test --username dyh --password 000000

--table users --hive-import --hive-table users -m 2 --fields-terminated-by "\0001";

參數說明：

-m 2 表示由兩個map作業執行；

--fields-terminated-by "\0001" 需同創建hive表時保持一致；

5、將hive中的表數據導入到mysql數據庫表中

sqoop export --connect jdbc:mysql://192.168.20.118:3306/test --username dyh --password 000000

--table users --export-dir /user/hive/warehouse/users/part-m-00000

--input-fields-terminated-by '\0001'

注意：

1、在進行導入之前，mysql中的表userst必須已經提起創建好了。

2、jdbc:mysql://192.168.20.118:3306/test中的IP地址改成localhost會報異常，具體見本人上一篇帖子

6、將數據從關系數據庫導入文件到hive表中，--query 語句使用

sqoop import --append --connect jdbc:mysql://192.168.20.118:3306/test --username dyh --password 000000 --query "select id,age,name from userinfos where \$CONDITIONS" -m 1 --target-dir /user/hive/warehouse/userinfos2 --fields-terminated-by ",";

7、將數據從關系數據庫導入文件到hive表中，--columns --where 語句使用

sqoop import --append --connect jdbc:mysql://192.168.20.118:3306/test --username dyh --password 000000 --table userinfos --columns "id,age,name" --where "id > 3 and (age = 88 or age = 80)" -m 1 --target-dir /user/hive/warehouse/userinfos2 --fields-terminated-by ",";

注意：--target-dir /user/hive/warehouse/userinfos2 可以用 --hive-import --hive-table userinfos2 進行替換

三、Sqoop選項含義說明

選項	含義說明
--connect <jdbc-uri>	指定JDBC連接字符串
--connection-manager <class-name>	指定要使用的連接管理器類
--driver <class-name>	指定要使用的JDBC驅動類
--hadoop-mapred-home <dir>	指定$HADOOP_MAPRED_HOME路徑
--help	萬能幫助
--password-file	設置用於存放認證的密碼信息文件的路徑
-P	從控制台讀取輸入的密碼
--password <password>	設置認證密碼
--username <username>	設置認證用戶名
--verbose	打印詳細的運行信息
--connection-param-file <filename>	可選，指定存儲數據庫連接參數的屬性文件

選選項項	含義說明含義說明
--append	將數據追加到HDFS上一個已存在的數據集上
--as-avrodatafile	將數據導入到Avro數據文件
--as-sequencefile	將數據導入到SequenceFile
--as-textfile	將數據導入到普通文本文件（默認）
--boundary-query <statement>	邊界查詢，用於創建分片（InputSplit）
--columns <col,col,col…>	從表中導出指定的一組列的數據
--delete-target-dir	如果指定目錄存在，則先刪除掉
--direct	使用直接導入模式（優化導入速度）
--direct-split-size <n>	分割輸入stream的字節大小（在直接導入模式下）
--fetch-size <n>	從數據庫中批量讀取記錄數
--inline-lob-limit <n>	設置內聯的LOB對象的大小
-m,--num-mappers <n>	使用n個map任務並行導入數據
-e,--query <statement>	導入的查詢語句
--split-by <column-name>	指定按照哪個列去分割數據
--table <table-name>	導入的源表表名
--where <where clause>	指定導出時所使用的查詢條件
-z,--compress	啟用壓縮
--compression-codec <c>	指定Hadoop的codec方式（默認gzip）
--null-string <null-string>	如果指定列為字符串類型，使用指定字符串替換值為null的該類列的值
--null-non-string <null-string>	如果指定列為非字符串類型，使用指定字符串替換值為null的該類列的值
選項	含義說明
--validate <class-name>	啟用數據副本驗證功能，僅支持單表拷貝，可以指定驗證使用的實現類
--validation-threshold <class-name>	指定驗證門限所使用的類
--direct	使用直接導出模式（優化速度）
--export-dir <dir>	導出過程中HDFS源路徑
--m,--num-mappers <n>	使用n個map任務並行導出
--table <table-name>	導出的目的表名稱
--call <stored-proc-name>	導出數據調用的指定存儲過程名
--update-key <col-name>	更新參考的列名稱，多個列名使用逗號分隔
--update-mode <mode>	指定更新策略，包括：updateonly（默認）、allowinsert
--input-null-string <null-string>	使用指定字符串，替換字符串類型值為null的列
--input-null-non-string <null-string>	使用指定字符串，替換非字符串類型值為null的列
--staging-table <staging-table-name>	在數據導出到數據庫之前，數據臨時存放的表名稱
--clear-staging-table	清除工作區中臨時存放的數據
--batch	使用批量模式導出

四、Hive月HBase的整合

1. hive和hbase同步官方文檔地址

https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

2. jar包拷貝

把hbase中的所有的jar，cp到hive/lib中，

同時把hive-hbase-handler-1.2.1.jar cp到hbase/lib 下

3. hive的配置文件增加屬性：

偽分布式完全分布式zookeeper管理

<name>hbase.zookeeper.quorum</name>

</property>

4. 在hive中創建臨時表

外部表創建需要hbase數據庫有與之對應的表已存在，否則創建失敗

CREATE EXTERNAL TABLE tmp_order

(key string, id string, user_id string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,order:order_id,order:user_id")

TBLPROPERTIES ("hbase.table.name" = "t_order");

內部表創建，hbase上自動創建

CREATE TABLE hbasetbl(key int, value string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")

TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Sqoop數據遷移工具數據遷移工具Sqoop和DataX功能比較 sqoop從DB2遷移數據到HDFS sqoop數據遷移（基於Hadoop和關系數據庫服務器之間傳送數據） [大數據之Sqoop] —— 什么是Sqoop? 分布式計算（二）使用Sqoop實現MySQL與HDFS數據遷移 Sap Hana第一篇：通過sqoop實現hdfs/hive表數據遷移 sqoop關系型數據遷移原理以及map端內存為何不會爆掉窺探 [大數據之Sqoop] —— Sqoop初探 [sqoop1.99.7] sqoop實例——數據ETL