數據倉庫系列之ETL過程和ETL工具


在這篇文章中我們將學習了解數據倉庫的ETL過程以及實用的ETL工具。

      一、什么是ETL?

      構建數據倉庫的核心是建模,在數據倉庫的構建中,ETL貫穿於項目始終,它是整個數據倉庫的生命線。從數據源中抽取數據,然后對這些數據進行轉化,最終加載到目標數據庫或者數據倉庫中去,這也就是我們通常所說的 ETL 過程(Extract,Transform,Load)。

       通常數據抽取工作分抽取、清洗、轉換、裝載幾個步驟:

 

        抽取主要是針對各個業務系統及不同服務器的分散數據,充分理解數據定義后,規划需要的數據源及數據定義,制定可操作的數據源,制定增量抽取和緩慢漸變的規則。

       清洗主要是針對系統的各個環節可能出現的數據二義性、重復、不完整、違反業務規則等數據質量問題,允許通過數據抽取設定的數據質量規則,將有問題的記錄先剔除出來,根據實際情況調整相應的清洗操作。

       轉換主要是針對數據倉庫建立的模型,通過一系列的轉換來實現將數據從業務模型到分析模型,通過ETL工具可視化拖拽操作可以直接使用標准的內置代碼片段功能、自定義腳本、函數、存儲過程以及其他的擴展方式,實現了各種復雜的轉換,並且支持自動分析日志,清楚的監控數據轉換的狀態並優化分析模型。

       裝載主要是將經過轉換的數據裝載到數據倉庫里面,可以通過直連數據庫的方式來進行數據裝載,可以充分體現高效性。在應用的時候可以隨時調整數據抽取工作的運行方式,可以靈活的集成到其他管理系統中。

       二、   數據倉庫ETL工具有哪些?

       ETL過程我們簡單介紹了一下,接下來我們來了解市面上數據倉庫解決方案。以下五種ETL工具是我基本接觸過的產品,個人根據產品對應官網以及提供的資料總結,對比的五種ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比較,目前對於這些工具也是初步了解,后續根據實際的體驗學習后再來進一步總結豐富對比維度信息。注意工具排名不分先后,個人認為技術沒有絕對的好壞,關鍵是看大家使用的場景。實際工作中選購滿足公司需要的產品即可。 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM