1、配置源和目標的數據連接
源(oracle):
目標(Hive 2.1.1),需要事先將hive的驅動程序導入HHDI的lib目錄中。
Hive2.1.1需要的jar包如下:可根據自身情況更換hadoop和hive的jar包。
hadoop-common-2.6.0.jar
hive-common-2.1.0.jar
hive-jdbc-2.1.0.jar
hive-metastore-2.1.0.jar
hive-serde-2.1.0.jar
hive-service-2.1.0.jar
hive-service-rpc-2.1.0.jar
hive-shims-2.1.0.jar
jar包可通過這里查找下載:https://mvnrepository.com/artifact/org.apache.hive/hive-jdbc/2.1.1
2、創建一個導出文本任務,將Oracle的表數據導出到一個文本文件中
配置源表查詢語句來抽取源表中的數據,可以增加Where條件縮小抽取的范圍。
數據被導出為一個txt文件到HHDI服務所在機器的磁盤中,后綴名為批次號,例如:O_RECORD_BLOODGLUCOSE.20170301
3、將導出的文本文件上傳到Hive所在主節點機器的目錄中,如果該Hive節點的目錄和HHDI服務器的目錄做了路徑映射,則可以省略這個步驟。
此處選擇的是SFTP方式
Hive的主節點為192.168.1.195,SFTP服務已經啟用
上傳的源文件和目標文件的配置
4、創建一個執行SQL任務,在Hive服務器上執行建表和導入文本數據的命令
采用LOAD DATA命令將本地文件導入Hive
5、創建一個作業流程,將上面創建的幾個轉換任務編入流程,注意順序
6、手工執行該作業流程,將oracle的數據導出並導入hive。
除此之外還可以通過CDATA的Hive驅動來從數據庫直接導入數據到Hive,詳情可查看另外一篇文章:
https://www.cnblogs.com/haohedi/p/9802674.html
HHDI(www.haohedi.com)讓ETL變得簡單!