數據集成工具Kettle、Sqoop、DataX的比較


數據集成工具很多,下面是幾個使用比較多的開源工具。
1、阿里開源軟件:DataX
        DataX 是一個異構數據源離線同步工具,致力於實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。
2、Apache開源軟件:Sqoop
Sqoop(發音:skup)是一款開源的工具,主要用於在HADOOP(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。(摘自百科)
3、Kettle開源軟件:水壺(中文名)
Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。
Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什么,而不是你想怎么做。
Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。


Kettle與DataX的比較:
1)Kettle擁有自己的管理控制台,可以直接在客戶端進行etl任務制定,不過是CS架構,而不支持BS瀏覽器模式。DataX並沒有界面,界面完全需要自己開發,增加了很大工作量。
2)Kettle可以與我們自己的工程進行集成,通過JAVA代碼集成即可,可以在java中調用kettle的轉換、執行、結束等動作,這個還是有意義的,而DataX是不支持的,DataX是以執行腳本的方式運行任務的,當然完全吃透源碼的情況下,應該也是可以調用的。
3)支持的數據庫,都支持的比較齊全,kettle支持的應該更多,DataX是阿里開發,可以更好地支持阿里自身的數據庫系列,如ODPS、ADS等
4)Kettle已經加入BI組織Pentaho,加入后kettle的開發粒度和被關注度更進一步提升
5)DataX開源的支持粒度不高,關注度遠沒有kettle高,代碼提交次數更是少的很。


原文鏈接:https://blog.csdn.net/ice_fire2008/article/details/79827681

 

阿里還開源了一種數據同步工具otter,這個和datax有什么區別呢?

https://blog.csdn.net/inthat/article/details/84146346


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM