從Oracle導出數據並導入到Hive


1、配置源和目標的數據連接

源(oracle):

clipboard

目標(Hive 2.1.1),需要事先將hive的驅動程序導入HHDI的lib目錄中。

clipboard

Hive2.1.1需要的jar包如下:可根據自身情況更換hadoop和hive的jar包。

hadoop-common-2.6.0.jar

hive-common-2.1.0.jar

hive-jdbc-2.1.0.jar

hive-metastore-2.1.0.jar

hive-serde-2.1.0.jar

hive-service-2.1.0.jar

hive-service-rpc-2.1.0.jar

hive-shims-2.1.0.jar

jar包可通過這里查找下載:https://mvnrepository.com/artifact/org.apache.hive/hive-jdbc/2.1.1

2、創建一個導出文本任務,將Oracle的表數據導出到一個文本文件中

clipboard

配置源表查詢語句來抽取源表中的數據,可以增加Where條件縮小抽取的范圍。

clipboard

數據被導出為一個txt文件到HHDI服務所在機器的磁盤中,后綴名為批次號,例如:O_RECORD_BLOODGLUCOSE.20170301

clipboard

3、將導出的文本文件上傳到Hive所在主節點機器的目錄中,如果該Hive節點的目錄和HHDI服務器的目錄做了路徑映射,則可以省略這個步驟。

此處選擇的是SFTP方式

clipboard

Hive的主節點為192.168.1.195,SFTP服務已經啟用

clipboard

上傳的源文件和目標文件的配置

clipboard

4、創建一個執行SQL任務,在Hive服務器上執行建表和導入文本數據的命令

clipboard

采用LOAD DATA命令將本地文件導入Hive

clipboard

5、創建一個作業流程,將上面創建的幾個轉換任務編入流程,注意順序

clipboard

6、手工執行該作業流程,將oracle的數據導出並導入hive。

clipboard[10]

 

除此之外還可以通過CDATA的Hive驅動來從數據庫直接導入數據到Hive,詳情可查看另外一篇文章:

https://www.cnblogs.com/haohedi/p/9802674.html

 

HHDI(www.haohedi.com)讓ETL變得簡單!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM