導入數據

原文鏈接：https://blog.csdn.net/qichangjian/java/article/details/88116434

導入到 hdfs例子

sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@ip:1521:服務名" \
--username "xxx" \
--password "xxx" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\\t" \
--query "$sql"

參數	說明
`--append`	數據追加到hdfs已經存在的數據組中。使用該參數，sqoop將把數據先導入到一個臨時目錄中，避免文件重名。
`--as-avrodatafile`	將數據導入到Avro數據文件中
`--as-sequencefile`	將數據導入到sequence文件中
`--as-textfile`	將數據導入到普通文本文件中。最終可以在hive中通過sql語句查詢出結果。
`--enclosed-by '\"'`	字段值前后加上指定字符，比如雙引號
`--columns<col,col>`	指定導入的字段，格式如：`--columns id,username`
`-m,--num-mappers`	啟動N個map來並行導入數據，默認是4個，最好不要將數字設置為高於集群的節點數
`--query，-e <sql>`	sql語句查詢結果集。該參數使用時必須指定`–target-dir`、`–hive-table`，必須在where條件中需要包含 `\$CONDITIONS。`
`--boundary-query <statement>`	邊界查詢。在導入前先通過SQL查詢得到一個結果集，然后導入的數據就是該結果集內的數據。格式如：`--boundary-query 'select id,no from t where id = 3'`，表示導入的數據為id=3的記錄，或者 `select min(<split-by>), max(<split-by>) from <table name>`，注意查詢的字段中不能有數據類型為字符串的字段，否則會報錯
`--table <table-name>`	關系數據庫表名，數據從該表中獲取
`--delete-target-dir`	如果目標目錄存在，先刪除目錄
`--target-dir <dir>`	指定hdfs路徑
--fields-terminated-by "\t"	每個字段是以什么符號作為結束的，默認是逗號
`--null-string '\\N' \` `--null-non-string '\\N' \`	`為了避免空值時，沒有數據`
`--where`	查詢條件，示例：`--where "id = 2"`
`-z,--compress`	壓縮參數，默認情況下數據是沒被壓縮的，通過該參數可以使用gzip壓縮算法對數據進行壓縮，適用於SequenceFile, text文本文件, 和Avro文件
`--compression-codec`	Hadoop壓縮編碼，默認是gzip
`--direct`	直接導入模式，使用的是關系數據庫自帶的導入導出工具。這樣導入會更快支持的數據庫類型與版本： * myslq 5.0 以上 * oracle 10.2.0 以上
`--direct-split-size`	在使用上面direct直接導入的基礎上，對導入的流按字節數分塊，特別是使用直連模式從PostgreSQL導入數據的時候，可以將一個到達設定大小的文件分為幾個獨立的文件。
`--split-by <column>`	`表的列名，用來切分工作單元，一般后面跟主鍵ID`
`--inline-lob-limit`	`設定大對象數據類型的最大值`

導入Hive

sqoop import \
--connect "jdbc:oracle:thin:@ip:1521:服務名" \ --username "xx" \ --password "xx" \ --query "$sql" \ --hive-table test.view_trjn \ --hive-drop-import-delims \ --target-dir "$db_dir" \ --fields-terminated-by "\\t" \ --hive-overwrite \ --null-string '\\N' \ --null-non-string '\\N' \--hive-import

參數	說明
`--hive-overwrite`	覆蓋掉在hive表中已經存在的數據
`--hive-table`	后面接要創建的hive表
–hive-partition-value “2018-08-08”	指定分區表的值
`–hive-partition-key “dt”`	`指定分區表的字段`
`--hive-delims-replacement“ ”`	導入到Hive時，用用戶定義的字符串替換字符串字段中的\n、\r和\01
`--hive-drop-import-delims`	`從字符串字段中刪除\n、\r和\01`
`--hive-import`	`指定是導入 Hive`

sqoop數據導出

參數	說明
--direct	快速導入
--export-dir	HDFS 導出數據的目錄
-m,--num-mappers	都少個 map 線程
--table	導出哪個表
--call	存儲過程
--update-key	通過哪個字段來判斷更新
--update-mode	插入模式，默認是只更新，可以設置為 allowinsert.
--input-null-string	字符類型 null 處理
--input-null-non-string	非字符類型 null 處理
--staging-table	臨時表
--clear-staging-table	清空臨時表
--batch	批量模式

HDFS —> MySQL

sqoop export \
--connect jdbc:mysql://hadoop01:3306/test \
--username hadoop \
--password root \
--table book \
--export-dir /sqoopdata \
--fields-terminated-by ','

hive----> MySQL

sqoop export \
--connect jdbc:mysql://hadoop01:3306/test \
--username hadoop \
--password root \
--table book \
--export-dir /user/hive/warehouse/uv/dt=2011-08-03 \
--input-fileds-terminated-by '\t

hbase---->MySQL
默認的沒有命令直接將hbase中的數據導入到MySQL，因為在hbase中的表數據量通常比較大，如果一次性導入到MySQL，可能導致MySQL直接崩潰。
但是可以用別的辦法進行導入：
將 Hbase 數據，扁平化成 HDFS 文件，然后再由 sqoop 導入將 Hbase 數據導入 Hive 表中，然后再導入 mysql 直接使用 Hbase 的 Java API 讀取表數據，直接向 mysql 導入，不需要使用 sqoop

FAQ

在使用sqoop從oracle導數到hive，報錯：sqoop could not load db driver class:oracle.jdbc.OracleDriver

在安裝sqoop server的節點上放oracle的驅動包

/opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar

並且修改權限為777

Sqoop將Oracle中的數據導入到Hive異常如下

20/05/25 11:30:55 INFO mapreduce.Job:  map 0% reduce 0%
20/05/25 11:31:35 INFO mapreduce.Job: Task Id : attempt_1578988458435_7984_m_000000_0, Status : FAILED
Error: java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:167)
    at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:76)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:751)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1869)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)
Caused by: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)
    at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
    ... 9 more
Caused by: java.sql.SQLRecoverableException: IO Error: The Network Adapter could not establish the connection
    at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:458)
    at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
    at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
    at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:32)
    at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:521)
    at java.sql.DriverManager.getConnection(DriverManager.java:664)
    at java.sql.DriverManager.getConnection(DriverManager.java:247)
    at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:302)
    at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:213)
    ... 10 more
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
    at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:392)
    at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:434)
    at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:687)
    at oracle.net.ns.NSProtocol.connect(NSProtocol.java:247)
    at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1102)
    at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:320)
    ... 18 more
Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable)
    at java.net.PlainSocketImpl.socketConnect(Native Method)
    at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)

也可能是下面的錯誤

ERROR manager.SqlManager: Error executing statement: java.sql.SQLRecoverableException: IO 錯誤: Connection reset
java.sql.SQLRecoverableException: IO 錯誤: Connection reset
 at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:467)
 at oracle.jdbc.driver.PhysicalConnection.<init>(PhysicalConnection.java:546)
 at oracle.jdbc.driver.T4CConnection.<init>(T4CConnection.java:236)
 at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.net.SocketException: Connection reset
 at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113)
 at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
 ... 25 more
18/09/28 09:46:20 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter
 at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1664)

進入 $JAVA_HOME/jre/lib/security目錄下的java.security文件

cd $JAVA_HOME/jre/lib/security

vim java.security
修改securerandom.source=file:/dev/../dev/urandom，如果這個參數不管用改為securerandom.source=file:///dev/urandom 或手動添加參數-D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

如果依舊有問題進行以下操作

export HADOOP_OPTS=-Djava.security.egd=file:/dev/../dev/urandom

sqoop import -D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom"

先在命令行或腳本設置HADOOP_OPTS，然后再執行sqoop import就可以了，最好加上mapred.child.java.opts參數,並且在第二次導入的時候一定要加上--hive-overwrite參數。
注：有時候-m需要設置成1才可以。剛開始我將-m設置成2報錯，我設置成1就可以了。

在腳本中export…和sqoop import -D mapred.child.java.opts都是不能少的。

This problem occurs primarily due to the lack of a fast random number generation device on the host where the map tasks execute.

參考：http://www.hohode.com/2018/09/28/Sqoop-Oracle-java-sql-SQLRecoverableException-IO-%E9%94%99%E8%AF%AF-Connection-reset/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sqoop數據導入hive 遇到的問題關於sqoop增量導入過程中，文件合並遇到的問題。 Sqoop 遇到的問題 sqoop學習3（數據導入亂碼問題） sqoop 數據從hive導入到mysql 遇到的坑 sqoop mysql導入hive 數值類型變成null的問題分析利用sqoop導入導出時分隔符問題 Termux源碼導入遇到的問題導入maven項目遇到的問題 sqoop增量導入hbase