適用場景
datax配合datax_web可進行 1 歷史數據遷移;2 億萬數據大庫切成小庫等數據抽取的場景操作。
(更適合全量數據的場景,增量建議用canal,datax也可實現每日同步數據)
一 官方文檔
datax https://github.com/alibaba/DataX/blob/master/introduction.mdgithub.com
datax-web https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md
使用DataX同步MaxCompute數據到TableStore(原OTS)優化指南-InfoQ
二 環境准備
windows python環境 datax項目 datax_web項目
我個人電腦環境
win10
python3.8.5 (或可python2環境)
datax項目 鏈接:https://pan.baidu.com/s/1KfRU5SJas0C94x84W6s5IQ 提取碼:9aok (里面有一些使用說明)
datax_web項目 鏈接:https://pan.baidu.com/s/1cNcMqdQwdRJxABBBUNE2qA 提取碼:xpaj
三 項目相關配置
1 datax項目
1.1 先配置 D:\datax\job 目錄下的job中的reader、writer。就理解成用navicat新建mysql連接
1.2 在D:\datax\bin 目錄下cmd 運行 datax.py 腳本,即可運行成功。
輸入命令如:python D:\datax\bin>python D:\datax\bin\datax.py D:\datax\job\job.json
運行如圖:

運行成功后如下圖:

注意:python2環境python3環境運行適配的腳本版本有所不同,可在官網下載。 官網python3腳本下載路徑 datax-web/doc/datax-web/datax-python3 at master · WeiYe-Jing/datax-web · GitHub
2 datax_web項目
2.1 修改配置
D:\IdeaProjects\datax-web\datax-admin\src\main\resources\application.yml
修改數據源配置
修改郵箱配置(可選)
修改打印日志配置


D:\IdeaProjects\datax-web\datax-executor\src\main\resources\application.yml
修改端口、日志路徑等相關配置

D:\IdeaProjects\datax-web\datax-admin\src\main\resources\bootstrap.properties

2.2 需要啟動兩個Application
DataXAdminApplication DataXExecutorApplication
2.3 打開網址
打開 http://10.1.28.108:8080/index.html 即可訪問。
成功運行如圖:

四 任務從開始到運行
1 項目管理中創建項目

2 執行器管理中新建執行器(建議采用手動錄入的方式)

3 數據源管理中新建數據源

4 任務管理中Datax任務模板創建

5 任務構建




構建成功后會自動在任務管理中添加一個任務。 這時候可以打開進行編輯,內容如下

沒啥問題就點擊操作按鈕

點擊執行一次,之后點擊查詢日志即可看job的運行情況。

注意:如果重復執行會報存在臟數據,主鍵唯一。執行到一半停止再次執行的情況,正在測試。
6 任務批量構建



點擊下一步就會批量創建完成。之后也可在任務管理中進行job的調整等。
五 datax性能優化和job中的參數說明
