概述
ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種數據的處理,轉換,遷移,所以了解並掌握一種etl工具的使用,必不可少。最近用kettle做數據處理比較多,所以也就介紹下這方面內容,這里先對比下幾款主流的ETL工具。
1、DataPipeline
Data Pipeline是一家為企業用戶提供數據基礎架構服務的科技公司,DataPipeline數據質量平台整合了數據質量分析、質量校驗、質量監控等多方面特性, 以保證數據質量的完整性、一致性、准確性及唯一性,徹底解決數據孤島和數據定義進化的問題。
2、Kettle
Kettle是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數據抽取高效穩定。Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。
Kettle家族目前包括4個產品:Spoon、Pan、CHEF、Kitchen。
SPOON 允許你通過圖形界面來設計ETL轉換過程(Transformation)。
PAN 允許你批量運行由Spoon設計的ETL轉換 (例如使用一個時間調度器)。Pan是一個后台執行的程序,沒有圖形界面。
CHEF 允許你創建任務(Job)。任務通過允許每個轉換,任務,腳本等等,更有利於自動化更新數據倉庫的復雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。
KITCHEN 允許你批量使用由Chef設計的任務 (例如使用一個時間調度器)。KITCHEN也是一個后台運行的程序。
3、Talend
Talend,是一家專業的開源集成軟件公司,為企業提供開源的中間件解決方案,從而讓企業能夠在他們的應用,系統以及數據庫中贏取更大的價值。在傳統軟件公司提供封閉、私有的解決方案的領域Talend系列軟件以開源的形式進行開發。Talend,可運行於 Hadoop 集群之間,直接生成 MapReduce 代碼供 Hadoop 運行,從而可以降低部署難度和成本,加快分析速度。而且 Talend 還支持可進行並發事務處理的Hadoop2.0。

4、Informatica
Informatica是全球領先的數據管理軟件提供商。在如下Gartner魔力象限位於領導者地位:數據集成工具魔力象限、數據質量工具魔力象限 、元數據管理解決方案魔力象限 、主數據管理解決方案魔力象限 、企業級集成平台即服務(EiPaaS)魔力象限。
Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 兩大產品,憑借其高性能、可充分擴展的平台,可以解決幾乎所有數據集成項目和企業集成方案。
· Informatica PowerCenter用於訪問和集成幾乎任何業務系統、任何格式的數據,它可以按任意速度在企業內交付數據,具有高性能、高可擴展性、高可用性的特點。Informatica PowerCenter包括4個不同版本,即:標准版,實時版,高級版,雲計算版。同時,它還提供了多個可選的組件,以擴展Informatica PowerCenter的核心數據集成功能,這些組件包括:數據清洗和匹配、數據屏蔽、數據驗證、Teradata雙負載、企業網格、元數據交換、下推優化(Pushdown Optimization)、團隊開發和非結構化數據等。
· Informatica PowerExchange 是一系列的數據訪問產品,它確保 IT 機構能夠根據需要隨時隨地訪問並在整個企業內傳遞關鍵數據。憑該能力,IT機構可以優化有限的資源和數據的業務價值。Informatica PowerExchange支持多種不同的數據源和各類應用,包括企業應用程序、數據庫和數據倉庫、大型機、中型系統、消息傳遞系統和技術標准。
5、Datax
DataX 是離線數據同步工具/平台,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
開源地址:https://github.com/alibaba/DataX
6、Oracle Goldengate
GoldenGate軟件是一種基於日志的結構化數據復制軟件。GoldenGate 能夠實現大量交易數據的實時捕捉、變換和投遞,實現源數據庫與目標數據庫的數據同步,保持亞秒級的數據延遲。
源端通過抽取進程提取redo log或archive log日志內容,通過pump進程(TCP/IP協議)發送到目標端,最后目標端的rep進程接收日志、解析並應用到目標端,進而完成數據同步。
7、ETL工具對比
數據倉庫ETL工具有哪些?
ETL過程我們簡單介紹了一下,接下來我們來了解市面上數據倉庫解決方案。以下五種ETL工具是我基本接觸過的產品,個人根據產品對應官網以及提供的資料總結,對比的五種ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比較,目前對於這些工具也是初步了解,后續根據實際的體驗學習后再來進一步總結豐富對比維度信息。注意工具排名不分先后,個人認為技術沒有絕對的好壞,關鍵是看大家使用的場景。實際工作中選購滿足公司需要的產品即可。