作者: 大圓那些事 | 文章可以轉載,請以超鏈接形式標明文章原始出處和作者信息
網址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html
最近由於項目需要,對Apache Sqoop和Taobao DataX工具進行了調研,這里是對二者功能的初步梳理,不會涉及技術細節和使用方法,留作日后選型參考。
Sqoop是Apache下的頂級項目,用來將Hadoop和關系型數據庫中的數據相互轉移,可以將一個關系型數據庫(例如:MySQL,Oracle,PostgreSQL等)中的數據導入到Hadoop的HDFS中,也可以將HDFS的數據導入到關系型數據庫中。目前在各個公司應用廣泛,且發展前景比較樂觀。其特點在於:
1)專門為Hadoop而生,隨Hadoop版本更新支持程度好,且原本即是從CDH版本孵化出來的開源項目,支持CDH4應該沒問題。
2)支持並行導入,宣稱速度很快(由於時間緊,未來得及進行真實環境的測試),可以指定按某個字段進行拆分並行化導入過程。
3)支持按字段進行導入與導出。
4)自帶的輔助工具比較豐富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。
DataX是淘寶開源的數據導入導出的工具,支持HDFS集群與各種關系型數據庫之間的數據交換。其特點在於:
1)官方版本支持的Hadoop版本較低(0.19),暫不支持高版本(如CDH4)。
2)支持從一個HDFS集群到另一個HDFS集群之間的數據導入導出。
3)支持數據不落地的並行導入導出。
注:以上並非是對這兩個工具很全面的對比分析,僅供參考,歡迎拍磚。