Sqoop將mysql數據導入hbase的血與淚

本文轉載自查看原文 2017-07-26 15:44 12228 hbase

Sqoop將mysql數據導入hbase的血與淚（整整搞了大半天）

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： https://my.oschina.net/yunshuxueyuan/blog
QQ技術交流群：299142667

一、問題如何產生

龐老師只講解了mysql和hdfs，mysq與hive的數據互導，因此決定研究一下將mysql數據直接導入hbase,這時出現了一系列問題。

心酸史：

二、開始具體解決問題

需求：（將以下這張表數據導入mysql）

由此，編寫如下sqoop導入命令

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9/spider --username root --password root 
--table test_goods --hbase-create-table --hbase-table t_goods  
--column-family cf --hbase-row-key id -m 1

一切看着都很正常，接下來開始執行命令，報如下錯誤：

1、

Error during import: No primary key could be found for table *

報錯原因就是指定的mysql表名不是大寫，所以mysql表名必須大寫

2、

Could not insert row with null value for row-key column

報錯原因是沒有指定mysql的列名，所以必須指定列名，並且hbase-row-key id 中的id，必須在–columns中顯示。 --columns ID,GOODS_NAME, GOODS_PRICE

3、

Error parsing arguments for import Unrecognized argument

報錯原因是在指定mysql的列名時，用逗號隔開的時候我多加了空格，所以在Columns后顯示的列名只能用逗號隔開，不要帶空格。

將以上三個問題排除后：我的最新導入命令變為如下：

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns id,goods_name,goods_price 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key id --where "id >= 5" -m 1

注意：這里有個小問題：記得將id>=5引起來

再次執行導入命令：出現如下情況（卡了好長時間）

發下map執行完成了，但是也就只卡在這里不動了，mapreduce任務一直在后台起着，一段時間后死掉，在這期間不停的執行導入命令和殺掉mapreduce的job

hadoop job -list 查看mapreduce 的job列表

hadoop job -kill job_id 殺死某個Job

經過長時間的測試，突然意識到當前用的是Hbase偽分布式，一下子恍然大悟：

原因：因為當前環境為hbase的偽分布式，所以hbase的數據是存在本地磁盤上的，

並且由自帶的zookeeper進行管理。而將mysql數據導入hbase的原理其實就是將數據導入hdfs,所以要想導入成功，存放hbase的數據地址應該在hdfs上才可以。所以如何解決這個問題，我想大家知道了，那就是開啟hbase完全分布式。

經過一頓折騰將虛擬機回復到hbase完全分布式的快照，安裝好sqoop,進行最終的測試！

最終執行的導入命令如下：（完整的導入命令）

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --where "ID >= 5" -m 1

終於見到久違的頁面：

查看hbase,數據已經成功導入

最后我將命令寫入一個xxx文件，通過sqoop –options-file xxx 執行導入命令

錯誤寫法如下：

import

-D sqoop.hbase.add.row.key=true

--connect jdbc:mysql://192.168.1.9:3306/spider

--username root

--password root

--table TEST_GOODS

--columns ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table test_goods

--column-family cf

--hbase-row-key ID

--where "ID >= 5"

-m 1

錯誤原因：參數的名稱和參數的值沒有進行回車換行

正確寫法：

import

-D

sqoop.hbase.add.row.key=true

--connect

jdbc:mysql://192.168.1.9:3306/spider

--username

root

--password

root

--table

TEST_GOODS

--columns

ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table

tt_goods

--column-family

cf

--hbase-row-key

ID

--where

ID>=5

-m

1

注：參數含義解釋

-D sqoop.hbase.add.row.key=true 是否將rowkey相關字段寫入列族中，默認為false，默認情況下你將在列族中看不到任何row key中的字段。注意，該參數必須放在import之后。

--connect 數據庫連接字符串

--username –password mysql數據庫的用戶名密碼

--table Test_Goods表名，注意大寫

--hbase-create-table 如果hbase中該表不存在則創建

--hbase-table 對應的hbase表名

--hbase-row-key hbase表中的rowkey,注意格式

--column-family hbase表的列族

--where 導入是mysql表的where條件，寫法和sql中一樣

--split-by CREATE_TIME 默認情況下sqoop使用4個並發執行任務，需要制訂split的列，如果不想使用並發，可以用參數 --m 1

到此，bug解決完成！！！

三、知識拓展，定時增量導入

1、Sqoop增量導入

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --incremental lastmodified --check-column U_DATE 
--last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量導入支持兩種模式 append 遞增的列；lastmodified時間戳。

--check-column 增量導入時參考的列

--last-value 最小值，這個例子中表示導入2017-06-27到今天的值

2、Sqoop job：

sqoop job --create testjob01 --import --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID -m 1

設置定時執行以上sqoop job

使用linux定時器：crontab -e

例如每天執行

0 0 * * * /opt/local/sqoop-1.4.6/bin/sqoop job ….

--exec testjob01

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： https://my.oschina.net/yunshuxueyuan/blog
QQ技術交流群：299142667

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Sqoop安裝及MySql數據導入HBase sqoop與hbase導入導出數據 sqoop:mysql和Hbase/Hive/Hdfs之間相互導入數據使用Sqoop從MySQL導入數據到Hive和HBase 及近期感悟 Sqoop_具體總結使用Sqoop將HDFS/Hive/HBase與MySQL/Oracle中的數據相互導入、導出 sqoop增量導入hbase 通過 Sqoop1.4.7 將 Mysql5.7、Hive2.3.4、Hbase1.4.9 之間的數據導入導出 ajax之cache血與淚~~ sqoop命令，mysql導入到hdfs、hbase、hive sqoop用法之mysql與hive數據導入導出