導入數據
原文鏈接:https://blog.csdn.net/qichangjian/java/article/details/88116434
導入到 hdfs例子
sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@ip:1521:服務名" \
--username "xxx" \
--password "xxx" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\\t" \
--query "$sql"
參數 | 說明 | |
---|---|---|
--append |
數據追加到hdfs已經存在的數據組中。使用該參數,sqoop將把數據先導入到一個臨時目錄中,避免文件重名。 |
|
--as-avrodatafile |
將數據導入到Avro數據文件中 | |
--as-sequencefile |
將數據導入到sequence文件中 | |
--as-textfile |
將數據導入到普通文本文件中。最終可以在hive中通過sql語句查詢出結果。 |
|
--enclosed-by '\"' |
字段值前后加上指定字符,比如雙引號 | |
--columns<col,col> |
指定導入的字段,格式如:--columns id,username |
|
-m,--num-mappers |
啟動N個map來並行導入數據,默認是4個,最好不要將數字設置為高於集群的節點數 | |
--query,-e <sql> |
sql語句查詢結果集。該參數使用時必須指定 |
|
--boundary-query <statement> |
邊界查詢。在導入前先通過SQL查詢得到一個結果集,然后導入的數據就是該結果集內的數據。 格式如: |
|
--table <table-name> |
關系數據庫表名,數據從該表中獲取 | |
--delete-target-dir |
如果目標目錄存在,先刪除目錄 | |
--target-dir <dir> |
指定hdfs路徑 | |
--fields-terminated-by "\t" | 每個字段是以什么符號作為結束的,默認是逗號 | |
|
為了避免空值時,沒有數據 |
|
--where |
查詢條件,示例:--where "id = 2" |
|
-z,--compress |
壓縮參數,默認情況下數據是沒被壓縮的,通過該參數可以使用gzip壓縮算法對數據進行壓縮,適用於SequenceFile, text文本文件, 和Avro文件 | |
--compression-codec |
Hadoop壓縮編碼,默認是gzip | |
--direct |
直接導入模式,使用的是關系數據庫自帶的導入導出工具。這樣導入會更快 支持的數據庫類型與版本: |
|
--direct-split-size |
在使用上面direct直接導入的基礎上,對導入的流按字節數分塊,特別是使用直連模式從PostgreSQL導入數據的時候,可以將一個到達設定大小的文件分為幾個獨立的文件。 | |
--split-by <column> |
表的列名,用來切分工作單元,一般后面跟主鍵ID |
|
--inline-lob-limit |
設定大對象數據類型的最大值 |
|
導入Hive
sqoop import \
--connect "jdbc:oracle:thin:@ip:1521:服務名" \ --username "xx" \ --password "xx" \ --query "$sql" \ --hive-table test.view_trjn \ --hive-drop-import-delims \ --target-dir "$db_dir" \ --fields-terminated-by "\\t" \ --hive-overwrite \ --null-string '\\N' \ --null-non-string '\\N' \--hive-import
參數 | 說明 | |
---|---|---|
--hive-overwrite |
覆蓋掉在hive表中已經存在的數據 | |
--hive-table |
后面接要創建的hive表 | |
–hive-partition-value “2018-08-08” | 指定分區表的值 | |
–hive-partition-key “dt” |
指定分區表的字段 |
|
--hive-delims-replacement“ ” |
導入到Hive時,用用戶定義的字符串替換字符串字段中的\n、\r和\01 | |
--hive-drop-import-delims |
從字符串字段中刪除\n、\r和\01 |
|
--hive-import |
指定是導入 Hive |
sqoop數據導出
參數 | 說明 |
--direct | 快速導入 |
--export-dir | HDFS 導出數據的目錄 |
-m,--num-mappers | 都少個 map 線程 |
--table | 導出哪個表 |
--call | 存儲過程 |
--update-key | 通過哪個字段來判斷更新 |
--update-mode | 插入模式,默認是只更新,可以設置為 allowinsert. |
--input-null-string | 字符類型 null 處理 |
--input-null-non-string | 非字符類型 null 處理 |
--staging-table | 臨時表 |
--clear-staging-table | 清空臨時表 |
--batch | 批量模式 |
HDFS —> MySQL
sqoop export \ --connect jdbc:mysql://hadoop01:3306/test \ --username hadoop \ --password root \ --table book \ --export-dir /sqoopdata \ --fields-terminated-by ','
hive----> MySQL
sqoop export \ --connect jdbc:mysql://hadoop01:3306/test \ --username hadoop \ --password root \ --table book \ --export-dir /user/hive/warehouse/uv/dt=2011-08-03 \ --input-fileds-terminated-by '\t
hbase---->MySQL
默認的沒有命令直接將hbase中的數據導入到MySQL,因為在hbase中的表數據量通常比較大,如果一次性導入到MySQL,可能導致MySQL直接崩潰。
但是可以用別的辦法進行導入:
將 Hbase 數據,扁平化成 HDFS 文件,然后再由 sqoop 導入 將 Hbase 數據導入 Hive 表中,然后再導入 mysql 直接使用 Hbase 的 Java API 讀取表數據,直接向 mysql 導入,不需要使用 sqoop
FAQ
在使用sqoop從oracle導數到hive,報錯:sqoop could not load db driver class:oracle.jdbc.OracleDriver
在安裝sqoop server的節點上放oracle的驅動包
/opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar
並且修改權限為777
Sqoop將Oracle中的數據導入到Hive異常如下
20/05/25 11:30:55 INFO mapreduce.Job: map 0% reduce 0% 20/05/25 11:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164) Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220) at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165) ... 9 more Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458) at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546) at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236) at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:32) at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:521) at java.sql.DriverManager.getConnection(DriverManager.java:664) at java.sql.DriverManager.getConnection(DriverManager.java:247) at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:302) at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:213) ... 10 more Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:392) at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:434) at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:687) at oracle.net.ns.NSProtocol.connect(NSProtocol.java:247) at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1102) at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320) ... 18 more Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable) at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
也可能是下面的錯誤
ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 錯誤: Connection reset
java.sql.SQLRecoverableException: IO 錯誤: Connection reset
at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)
at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.net.SocketException: Connection reset
at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
... 25 more
18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter
at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1664)
進入 $JAVA_HOME/jre/lib/security目錄下的java.security文件
cd $JAVA_HOME/jre/lib/security
vim java.security
修改securerandom.source=file:/dev/../dev/urandom,如果這個參數不管用改為securerandom.source=file:///dev/urandom 或 手動添加參數-D mapred.child.java.opts=
"-Djava.security.egd=file:/dev/../dev/urandom"
如果依舊有問題進行以下操作
export HADOOP_OPTS=-Djava.security.egd=file:/dev/../dev/urandom |
先在命令行或腳本設置HADOOP_OPTS,然后再執行sqoop import就可以了,最好加上mapred.child.java.opts
參數,並且在第二次導入的時候一定要加上--hive-overwrite
參數。
注:有時候-m需要設置成1才可以。剛開始我將-m設置成2報錯,我設置成1就可以了。
在腳本中export…和sqoop import -D mapred.child.java.opts都是不能少的。
This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.