數據倉儲架構淺談


 

數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。其實數據倉庫本身並不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源於外部,並且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。因此數據倉庫的基本架構主要包含的是數據流入流出的過程,可以分為三層——源數據數據倉庫數據應用

從圖中可以看出數據倉庫的數據來源於不同的源數據,並提供多樣的數據應用,數據自上而下流入數據倉庫后向上層開放應用,而數據倉庫只是中間集成化數據管理的一個平台。

下面主要簡單介紹下數據倉庫架構中的各個模塊,當然這里所介紹的數據倉庫主要是指網站數據倉庫。

1、數據倉庫的數據來源2、數據倉庫的數據存儲3、數據的聚合4、多維數據模型5、業務模型6、數據倉庫的數據應用7、報表展示8、即席查詢9、數據分析10、數據挖掘11、元數據管理

最后做個Ending,數據倉庫本身既不生產數據也不消費數據,只是作為一個中間平台集成化地存儲數據;數據倉庫實現的難度在於整體架構的構建及ETL的設計,這也是日常管理維護中的重頭;而數據倉庫的真正價值體現在於基於其的數據應用上,如果沒有有效的數據應用也就失去了構建數據倉庫的意義。

而數據倉庫是一種體系結構,而不是一種技術。數據倉庫最為核心的內容分類兩部分:

  1. 基於關系數據庫的多維建模(RDBMS-based dimensional modeling)
  2. 基於數據立方體的 OLAP 查詢(cube-based OLAP)

 

 

數據倉庫體系結構包含了從外部數據源或者數據庫抽取數據的 ETL 工具。ETL 還負責數據的轉換,清洗,然后加載到數據倉庫的存儲中。一般來說,數據都會加載到存取速度較慢的存儲中,以原始數據的方式保存下來。

為了提高查詢效率,原始數據會按主題分類,以聚合的方式存儲到數據集市中,稱之為聚合數據。

 數據湖架構

Pentaho 的 CTO James Dixon 在 2011 年提出了 “Data Lake” 的概念。在面對大數據挑戰時,他聲稱:不要想着數據的 “倉庫” 概念,想想數據 的 “湖” 概念。數據 “倉庫” 概念和數據湖概念的重大區別是:數據倉庫中數據在進入倉庫之前需要是事先歸類,以便於未來的分析。這在 OLAP 時代很常見,但是對於離線分析卻沒有任何意義,不如把大量的原始數據線保存下來,而現在廉價的存儲提供了這個可能。

Nearly unlimited potential for operational insight and data discovery. As data volumes, data variety, and metadata richness grow, so does the benefit.

形象的來看,如下圖所示,數據湖架構保證了多個數據源的集成,並且不限制 schema,保證了數據的精確度。數據湖可以滿足實時分析的需要,同時也可以作為數據倉庫滿足批處理數據挖掘的需要。數據湖還為數據科學家從數據中發現更多的靈感提供了可能。

文章引用:http://blog.bingocloud.cn/archives/3276

https://www.cnblogs.com/saratearing/p/5818594.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM