01. 架構演進
離線數據倉庫到實時數據倉庫,從lambda架構到kappa架構、再到混合架構。
02. 邏輯分層
數倉分層,一般按ods->dw->dm整體架構。不同的企業,不同的業務場景,有衍生出不同的分層架構模式。例如經典四層架構:ods->dwd->dws-ads,bdl->fdl->gdl->adl等。
技術選型,傳統數倉一般以Oracle、greenplum、teradata 等,互聯網數倉一般以Hadoop生態圈為主,離線以Hive為核心,准實時以spark為核心,實時以flink為核心構建。
03. 數據調研
業務調研,業務側對齊,遵循關系型數據庫建模方式,從概念模型(cdm)->邏輯模型(ldm)->物理模型(pdm)建模套路,是一個從抽象到具體的一個不斷細化完善的分析,設計和開發的過程。
需求調研,現有BI報表需求,統計需求,用戶畫像,推薦系統等數據應用。
數據庫調研,了解數據庫表數據結構、數據形態,全局把握業務流程數據流向,做到真正業務流程和數據結構結合。
04. 主題域划分
業務高度抽象,可先確定企業業務bu模塊,然后可根據概念模型(cdm)進行一級主題划分,確定一致性維度和事實流程,構建總線矩陣。
按照kimball大師經典建模四步驟:選擇業務過程->聲明粒度->確定維度->確定事實 進行維度建模。
05. 數倉規范
構建企業級數據倉庫,必不可少的就是制定數倉規范。包括 命名規范,流程規范,設計規范,開發規范 等。無規矩不成方圓,建設數倉也是這樣。
開發規范 示例:
06. 數據治理
大數據時代必不可少的一個重要環節,可從數據質量、元數據管理、數據安全、數據生命周期等方面開展實施。數據治理是一個企業安身立命的根本。
數據質量,必須保證完整性、准確性、一致性、時效性。每一個任務都應該配置數據質量監控,嚴禁任務裸奔。可建設統一數據質量告警中心從以下四個方面進行監控、預警和優化任務。
元數據管理,關於數據的數據。可分為技術元數據和業務元數據。對於數倉開發和維護,模型血緣關系尤為重要。
數據安全,可包含以下五方面的內容,即數據的保密性、真實性、完整性、未授權拷貝和所寄生系統的安全性。
07. 數倉理念
從80年代到現在,數據倉庫流派之爭已趨於穩緩,比較經典的就是數倉大師Kimball的維度建模、數倉之父Inmon的范式(E-R)建模,另外還有Data Vault建模、Anchor模型等。
結語:數倉是一種思想,數倉是一種規范,數倉是一種解決方案。
摘自:https://mp.weixin.qq.com/s?__biz=Mzg3NjIyNjQwMg==&mid=2247483934&idx=1&sn=76b249d26aa2f726ea9c5310d2da9777&chksm=cf343013f843b9056a718ba64b181ee1c6400781ddf747ce38d2c2058b57347bca08275b107c&scene=21#wechat_redirect