DataX 是一個異構數據源離線同步工具,致力於實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。
具體介紹這里不再贅述,官網和其他博客都很多:https://www.jianshu.com/p/f5f0dc99d5ab
1.下載datax安裝包及部署步驟
官網:https://github.com/alibaba/DataX/blob/master/userGuid.md
這里結合centos7搭建dolphinscheduler集群說說dolphinscheduler集成datax,這里也很簡單,datax安裝目錄和dolphinscheduler配置目錄保持一致即可
這里解壓到/opt/soft/目錄下
tar -zxvf datax.tar.gz -C /opt/soft/
2.在DolphinScheduler后台配置datax任務,這里以mysql數據源為例,mysql->mysql,這里演示數據由test1->test2->test3中,需要配置兩個任務,第一個任務test1->test2,第二個任務test2->test3,第一個任務完成后執行第二個任務,數據流配置如下:
首先在數據源中心配置mysql數據源
然后在項目管理里面創建數據流任務,在畫布上拉去datax類型配置第一個任務,選擇剛才配置的mysql數據源
配置第二個任務
3.數據流上線,並配置定時調度策略
任務調度后執行成功:
需要注意配置租戶在worker機器上添加對應的user,window打包dolphinscheduler時腳本在Linux上執行一次可以看:windows打包腳本出現 /bin/sh^M: 壞的解釋器: 沒有那個文件或目錄 錯誤