datax(https://github.com/alibaba/DataX)是一個離線的數據同步工具,提供了異構數據源之間的同步。
datax整體項目結構清晰,core提供了核心功能,剩下的都是各種數據源的reader和write。
核心功能就是根據配置信息,抽取源數據,導入到目標數據,中間還有各種的流量控制。
datax作為一個離線數據同步平台,使用還是比較廣泛的,其中大數據就是一個比較典型的場景,大數據ETL平台需要從各個數據源抽取數據,除了sqoop, datax也是一個不錯的選擇。
datax是一個離線批量的數據同步工具,與之對應的還有canal這種通過解析binlog的實時數據同步工具
我的注解版: