DataX環境配置


摘要: DataX(3.0)配置過程

配置過程以及插件配置

1、DataX(3.0)地址:https://github.com/alibaba/DataX

官方提供的配置需求:本例使用了JDK1.8 Python使用了CentOS預裝的版本。

System Requirements: Linux、Windows JDK(1.6以上,推薦1.6) Python(推薦Python2.6.X) Apache Maven 3.x (Compile DataX)

2、配置Maven

   本文使用apache-maven-3.3.9版本

   安裝過程:解壓maven的tar包,配置環境變量、

export M3_HOME=/usr/local/apache-maven-3.3.9 export PATH=$PATH:$M3_HOME/bin

 

 在終端中輸入mvn -v 確認是否安裝成功。

3、配置git

 1)先更新一下開發工具,命令:yum  groupinstall "Development Tools"

  2)安裝一些其他的依賴包:

sudo yum install gettext-devel openssl-devel perl-CPAN perl-devel zlib-devel

 

 3)查看git的最新版本:https://github.com/git/git/releases

運行wget https://Github.com/Git/Git/archive/v2.9.3.tar.gz 下載最新版本。

5)tar xvf v2.3.0.tar.gz 解壓下載的tar包

6)進入git目錄,運行make install 命令

      報錯:找不到 curl.h expat.h

      運行 

yum  install curl-devel yum install expat-devel

 

      安裝相應的開發包。

   7)配置SSH Key 用於從github上獲取源碼

      教程:http://www.cnblogs.com/bsn-huang/p/3933442.htm

 4、獲取datax3.0的源碼

git clone https://github.com/alibaba/DataX

 

5、配置DataX源碼根目錄中pom.xml

刪除pom.xml中的不需要的reader和writer插件模塊。

本例保留的模塊如下mysqlreader、mysqlwriter、hdfsreader、hdfswriter  (streamreader、streamwriter為運行樣例所需的,建議保留):

<!-- reader -->
<module>mysqlreader</module>      
<module>hdfsreader</module>
<module>streamreader</module>
<!-- writer -->
<module>mysqlwriter</module>
<module>hdfswriter</module>
<module>streamwriter</module>
<!-- some support module -->
<module>plugin-rdbms-util</module>
<module>plugin-unstructured-storage-util</module>

 

6、 修改插件模塊文件夾中的pom.xml中版本。

1)mysqlreader和mysqlwriter中的mysql-connector-java的5.1.34可以保留。

2)本例將hdfsreader和hdfswriter中的hive.version和hadoop.version更換為此前安裝的2.1.0版本號和2.7.2版本號。

如圖:

7、 打開終端,進入DataX源碼根目錄

   (打包官方教程:https://github.com/alibaba/DataX/wiki/compile-datax

輸入如下命令打包:

mvn -U clean package assembly:assembly -Dmaven.test.skip=true

 

打包成功結果如下:

8、 可在DataX源碼根目錄下找到target文件夾,其中有打包好的目錄結構與壓縮包。

9、部署:(部署教程:https://github.com/alibaba/DataX/wiki/Quick-Start

解壓打包好的datax至本地某個目錄,修改權限為755,進入bin目錄,即可運行樣例同步作業:

$ tar zxvf datax.tar.gz $ sudo chmod -R 755 {YOUR_DATAX_HOME} $ cd {YOUR_DATAX_HOME}/bin $ python datax.py ../job/job.json

 

運行樣例作業成功結果:

原文地址:https://my.oschina.net/u/2478308/blog/757521


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM