ETL是什么?
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。(數據倉庫結構)通俗的說法就是從數據源抽取數據出來,進行清洗加工轉換,然后加載到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析依據。ETL是BI項目重要的一個環節,其設計的好壞影響生成數據的質量,直接關系到BI項目的成敗。
目前比較常用的etl工具有DataPipeline,Kettle,Talend,Informatica
易用性:
DataPipeline: 有非常容易使用的 GUI,具有豐富的可視化監控;
Kettle: GUI+Coding;
Informatica: GUI+Coding,有GUI,但是要專門的訓練;
Talend:GUI+Coding,有 GUI 圖形界面但是以 Eclipse 的插件方式提供;
技能要求:
DataPipeline:操作簡單,無技術要求;
Kettle: ETL設計, SQL, 數據建模 ;
Informatica: ETL設計, SQL, 數據建模;
Talend:需要寫Java;
底層架構:
DataPipeline:分布式,可水平擴展;
Kettle:主從結構非高可用;
Informatica:分布式;
Talend:分布式;
數據實時性:
DataPipeline:支持異構數據源的實時同步,速度非常快;
Kettle:不支持實時數據同步;
Informatica:支持實時,效率較低;
Talend:支持實時處理,需要購買高級版本,價格貴;
技術支持:
DataPipeline:本地化原廠技術支持;
Kettle:無;
Informatica:主要在美國;
Talend:主要在美國;
相關鏈接文檔:https://wenku.baidu.com/view/6931cb1659eef8c75fbfb358.html