1.官網下載
下載地址:https://github.com/alibaba/DataX
DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平台,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
支持的數據源:https://github.com/alibaba/DataX/wiki/DataX-all-data-channels
快速入門:https://github.com/alibaba/DataX/wiki/Quick-Start
插件開發:https://github.com/alibaba/DataX/wiki/DataX%E6%8F%92%E4%BB%B6%E5%BC%80%E5%8F%91%E5%AE%9D%E5%85%B8
配置定時任務https://github.com/alibaba/DataX/wiki/%E9%85%8D%E7%BD%AE%E5%AE%9A%E6%97%B6%E4%BB%BB%E5%8A%A1%EF%BC%88Linux%E7%8E%AF%E5%A2%83%EF%BC%89
動態傳入參數:https://github.com/alibaba/DataX/wiki/%E5%8A%A8%E6%80%81%E4%BC%A0%E5%85%A5%E5%8F%82%E6%95%B0
2.系統環境
- Linux、Windows
- JDK(1.8)
- Python(推薦Python2.6.X)
- Apache Maven 3.x (Compile DataX)
一、工具下載以及部署
-
方法一、直接下載DataX工具包(如果僅是使用,推薦直接下載):DataX下載地址
下載后解壓至本地某個目錄,修改權限為755,進入bin目錄,即可運行樣例同步作業:
$ tar zxvf datax.tar.gz $ sudo chmod -R 755 {YOUR_DATAX_HOME} $ cd {YOUR_DATAX_HOME}/bin $ python datax.py ../job/job.json
-
方法二、下載DataX源碼,自己編譯:DataX源碼編譯方法