數據遷移工具Sqoop和DataX功能比較


作者: 大圓那些事 | 文章可以轉載,請以超鏈接形式標明文章原始出處和作者信息

網址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html

最近由於項目需要,對Apache Sqoop和Taobao DataX工具進行了調研,這里是對二者功能的初步梳理,不會涉及技術細節和使用方法,留作日后選型參考。

Sqoop是Apache下的頂級項目,用來將Hadoop和關系型數據庫中的數據相互轉移,可以將一個關系型數據庫(例如:MySQL,Oracle,PostgreSQL等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關系型數據庫中。目前在各個公司應用廣泛,且發展前景比較樂觀。其特點在於:

1)專門為Hadoop而生,隨Hadoop版本更新支持程度好,且原本即是從CDH版本孵化出來的開源項目,支持CDH4應該沒問題。

2)支持並行導入,宣稱速度很快(由於時間緊,未來得及進行真實環境的測試),可以指定按某個字段進行拆分並行化導入過程。

3)支持按字段進行導入與導出。

4)自帶的輔助工具比較豐富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。

DataX是淘寶開源的數據導入導出的工具,支持HDFS集群與各種關系型數據庫之間的數據交換。其特點在於:

1)官方版本支持的Hadoop版本較低(0.19),暫不支持高版本(如CDH4)。

2)支持從一個HDFS集群到另一個HDFS集群之間的數據導入導出。

3)支持數據不落地的並行導入導出。

注:以上並非是對這兩個工具很全面的對比分析,僅供參考,歡迎拍磚。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM