Apache DolphinScheduler集成datax


DataX 是一個異構數據源離線同步工具,致力於實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。

具體介紹這里不再贅述,官網和其他博客都很多:https://www.jianshu.com/p/f5f0dc99d5ab

1.下載datax安裝包及部署步驟

官網:https://github.com/alibaba/DataX/blob/master/userGuid.md

這里結合centos7搭建dolphinscheduler集群說說dolphinscheduler集成datax,這里也很簡單,datax安裝目錄和dolphinscheduler配置目錄保持一致即可

 

 

 這里解壓到/opt/soft/目錄下

tar -zxvf datax.tar.gz -C /opt/soft/

2.在DolphinScheduler后台配置datax任務,這里以mysql數據源為例,mysql->mysql,這里演示數據由test1->test2->test3中,需要配置兩個任務,第一個任務test1->test2,第二個任務test2->test3,第一個任務完成后執行第二個任務,數據流配置如下:

首先在數據源中心配置mysql數據源

 

 

 然后在項目管理里面創建數據流任務,在畫布上拉去datax類型配置第一個任務,選擇剛才配置的mysql數據源

 

 配置第二個任務

 

 3.數據流上線,並配置定時調度策略

 

 任務調度后執行成功:

 

 需要注意配置租戶在worker機器上添加對應的user,window打包dolphinscheduler時腳本在Linux上執行一次可以看:windows打包腳本出現 /bin/sh^M: 壞的解釋器: 沒有那個文件或目錄 錯誤


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM