Alibaba DataX 源碼編譯
標簽(空格分隔): ETL
DataX簡介
設計理念
為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。
當前使用現狀
DataX在阿里巴巴集團內被廣泛使用,承擔了所有大數據的離線同步業務,並已持續穩定運行了6年之久。目前每天完成同步8w多道作業,每日傳輸數據量超過300TB。此前已經開源DataX1.0版本,此次介紹為阿里巴巴開源全新版本DataX3.0,有了更多更強大的功能和更好的使用體驗。
源碼及文檔: https://github.com/alibaba/DataX
DataX3.0框架設計
DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中。
Reader:Reader為數據采集模塊,負責采集數據源的數據,將數據發送給Framework。
Writer: Writer為數據寫入模塊,負責不斷從Framework取數據,並將數據寫入到目的端。
Framework:Framework用於連接reader和writer,作為兩者的數據傳輸通道,並處理緩沖,流控,並發,數據轉換等核心技術問題。
DataX3.0核心架構
DataX 3.0 開源版本支持單機多線程模式完成同步作業運行,阿里內部版本應該支持分布式,本小節按一個DataX作業生命周期的時序圖,從整體架構設計非常簡要說明DataX各個模塊相互關系。
核心模塊介紹:
DataX完成單個數據同步的作業,我們稱之為Job,DataX接受到一個Job之后,將啟動一個進程來完成整個作業同步過程。DataX Job模塊是單個作業的中樞管理節點,承擔了數據清理、子任務切分(將單一作業計算轉化為多個子Task)、TaskGroup管理等功能。
DataXJob啟動后,會根據不同的源端切分策略,將Job切分成多個小的Task(子任務),以便於並發執行。Task便是DataX作業的最小單元,每一個Task都會負責一部分數據的同步工作。
切分多個Task之后,DataX Job會調用Scheduler模塊,根據配置的並發數據量,將拆分成的Task重新組合,組裝成TaskGroup(任務組)。每一個TaskGroup負責以一定的並發運行完畢分配好的所有Task,默認單個任務組的並發數量為5。
每一個Task都由TaskGroup負責啟動,Task啟動后,會固定啟動Reader—>Channel—>Writer的線程來完成任務同步工作。
DataX作業運行起來之后, Job監控並等待多個TaskGroup模塊任務完成,等待所有TaskGroup任務完成后Job成功退出。否則,異常退出,進程退出值非0
DataX調度流程:
舉例來說,用戶提交了一個DataX作業,並且配置了20個並發,目的是將一個100張分表的mysql數據同步到odps里面。 DataX的調度決策思路是:
DataXJob根據分庫分表切分成了100個Task。
根據20個並發,DataX計算共需要分配4個TaskGroup(20/5)。
4個TaskGroup平分切分好的100個Task,每一個TaskGroup負責以5個並發共計運行25個Task。
編譯源碼
1,下載源碼
$ git clone git@github.com:alibaba/DataX.git
2,配置 maven setting.xml
修改為阿里雲鏡像
<mirrors>
<mirror>
<id>custom-mirror</id>
<mirrorOf>*</mirrorOf>
<!--<url>http://maven.aliyun.com/nexus/content/groups/public/</url>-->
<url>https://maven.aliyun.com/repository/central</url>
</mirror>
</mirrors>
3,編譯打包
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
注:異常處理
異常一:
[ERROR] Failed to execute goal on project odpsreader: Could not resolve dependencies for project com.alibaba.datax:odpsreader:jar:0.0.1-SNAPSHOT: Could not find artifact com.alibaba.external:bouncycastle.provider:jar:1.38-jdk15 in custom-mirror (https://maven.aliyun.com/repository/central) -> [Help 1]
$ vim odpsreader/pom.xml
com.aliyun.odps
odps-sdk-core
換一下版本 :0.20.7-public
異常二:
[ERROR] Failed to execute goal on project otsstreamreader: Could not resolve dependencies for project com.alibaba.datax:otsstreamreader:jar:0.0.1-SNAPSHOT: Could not find artifact com.aliyun.openservices:tablestore-streamclient:jar:1.0.0-SNAPSHOT -> [Help 1]
$ vim otsstreamreader/pom.xml
把 tablestore-streamclient 的版本 1.0.0-SNAPSHOT 改成 1.0.0
其他異常:
多數是由maven倉庫缺少jar包所致,可將maven鏡像改為私服重試,私服配置如下:
<mirrors>
<mirror>
<id>custom-mirror</id>
<mirrorOf>*</mirrorOf>
<url>http://xxx.xxx.xxx.xxx:9999/nexus/content/groups/public/</url>
</mirror>
</mirrors>
public availibale repositories:
aliyun:https://maven.aliyun.com/repository/central/
Central:https://repo1.maven.org/maven2/
cloudra:https://repository.cloudera.com/content/repositories/releases
conjars:http://conjars.org/repo/
打包成功,日志顯示如下:
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary for datax-all 0.0.1-SNAPSHOT:
[INFO]
[INFO] datax-all .......................................... SUCCESS [02:46 min]
[INFO] datax-common ....................................... SUCCESS [ 1.704 s]
[INFO] datax-transformer .................................. SUCCESS [ 1.092 s]
[INFO] datax-core ......................................... SUCCESS [ 2.538 s]
[INFO] plugin-rdbms-util .................................. SUCCESS [ 1.004 s]
[INFO] mysqlreader ........................................ SUCCESS [ 0.817 s]
[INFO] drdsreader ......................................... SUCCESS [ 0.871 s]
[INFO] sqlserverreader .................................... SUCCESS [ 0.759 s]
[INFO] postgresqlreader ................................... SUCCESS [ 0.898 s]
[INFO] oraclereader ....................................... SUCCESS [ 0.730 s]
[INFO] odpsreader ......................................... SUCCESS [ 4.434 s]
[INFO] otsreader .......................................... SUCCESS [ 7.622 s]
[INFO] otsstreamreader .................................... SUCCESS [ 2.919 s]
[INFO] plugin-unstructured-storage-util ................... SUCCESS [ 3.740 s]
[INFO] txtfilereader ...................................... SUCCESS [ 2.490 s]
[INFO] hdfsreader ......................................... SUCCESS [ 10.103 s]
[INFO] streamreader ....................................... SUCCESS [ 0.771 s]
[INFO] ossreader .......................................... SUCCESS [ 3.766 s]
[INFO] ftpreader .......................................... SUCCESS [ 3.546 s]
[INFO] mongodbreader ...................................... SUCCESS [ 3.219 s]
[INFO] rdbmsreader ........................................ SUCCESS [ 0.750 s]
[INFO] hbase11xreader ..................................... SUCCESS [ 8.536 s]
[INFO] hbase094xreader .................................... SUCCESS [ 15.437 s]
[INFO] opentsdbreader ..................................... SUCCESS [ 9.389 s]
[INFO] mysqlwriter ........................................ SUCCESS [ 0.656 s]
[INFO] drdswriter ......................................... SUCCESS [ 0.628 s]
[INFO] odpswriter ......................................... SUCCESS [ 1.318 s]
[INFO] txtfilewriter ...................................... SUCCESS [ 2.235 s]
[INFO] ftpwriter .......................................... SUCCESS [ 2.847 s]
[INFO] hdfswriter ......................................... SUCCESS [ 5.695 s]
[INFO] streamwriter ....................................... SUCCESS [ 0.656 s]
[INFO] otswriter .......................................... SUCCESS [ 1.325 s]
[INFO] oraclewriter ....................................... SUCCESS [ 0.674 s]
[INFO] sqlserverwriter .................................... SUCCESS [ 0.714 s]
[INFO] postgresqlwriter ................................... SUCCESS [ 0.660 s]
[INFO] osswriter .......................................... SUCCESS [ 2.360 s]
[INFO] mongodbwriter ...................................... SUCCESS [ 2.324 s]
[INFO] adswriter .......................................... SUCCESS [ 4.402 s]
[INFO] ocswriter .......................................... SUCCESS [ 6.219 s]
[INFO] rdbmswriter ........................................ SUCCESS [ 0.735 s]
[INFO] hbase11xwriter ..................................... SUCCESS [ 4.088 s]
[INFO] hbase094xwriter .................................... SUCCESS [ 2.189 s]
[INFO] hbase11xsqlwriter .................................. SUCCESS [ 15.235 s]
[INFO] hbase11xsqlreader .................................. SUCCESS [ 14.237 s]
[INFO] elasticsearchwriter ................................ SUCCESS [ 3.212 s]
[INFO] tsdbwriter ......................................... SUCCESS [ 0.897 s]
[INFO] hbase20xsqlreader .................................. SUCCESS [01:47 min]
[INFO] hbase20xsqlwriter .................................. SUCCESS [ 29.320 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 07:44 min
[INFO] Finished at: 2019-05-27T21:55:06+08:00
[INFO] ------------------------------------------------------------------------
打包成功后的DataX包位於 {DataX_source_code_home}/target/datax/datax/ ,結構如下:
$ cd {DataX_source_code_home}
$ ls ./target/datax/datax/
bin conf job lib plugin script tmp
root@VECS02922:/app/compile/DataX/target# du -sh *
4.0K archive-tmp
1.3G datax
1.2G datax.tar.gz