常用的etl工具比較


ETL是什么?

ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。(數據倉庫結構)通俗的說法就是從數據源抽取數據出來,進行清洗加工轉換,然后加載到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析依據。ETL是BI項目重要的一個環節,其設計的好壞影響生成數據的質量,直接關系到BI項目的成敗。

目前比較常用的etl工具有DataPipeline,Kettle,Talend,Informatica

易用性:

DataPipeline: 有非常容易使用的 GUI,具有豐富的可視化監控;

Kettle: GUI+Coding;

Informatica: GUI+Coding,有GUI,但是要專門的訓練;

Talend:GUI+Coding,有 GUI 圖形界面但是以 Eclipse 的插件方式提供;

技能要求:

DataPipeline:操作簡單,無技術要求;

Kettle: ETL設計, SQL, 數據建模 ;

Informatica: ETL設計, SQL, 數據建模;

Talend:需要寫Java;

底層架構:

DataPipeline:分布式,可水平擴展;

Kettle:主從結構非高可用;

Informatica:分布式;

Talend:分布式;

數據實時性:

DataPipeline:支持異構數據源的實時同步,速度非常快;

Kettle:不支持實時數據同步;

Informatica:支持實時,效率較低;

Talend:支持實時處理,需要購買高級版本,價格貴;

技術支持:

DataPipeline:本地化原廠技術支持;

Kettle:無;

Informatica:主要在美國;

Talend:主要在美國;

 

相關鏈接文檔:https://wenku.baidu.com/view/6931cb1659eef8c75fbfb358.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM