具體數倉甚至數據治理方面可以參考下圖
按照數倉分層思想,分為ods貼源層、dw主題層、mid維表層、dm集市層、app應該層
過程如下:
1 數據通過采集或同步落地基於HDFS存儲的ods層
2 主題抽取確認
3 如果有此需求,構建基於主題數據的微聚合結果
4 構建維表層數據,如時間、地區、產品類別等數據
5 進行數據集市構建如統計結果、用戶畫像、TopN熱門數據
6 進行集市數據的輸出到app進行BI可視化展示
dws是基於主題數據做的微聚合,對下游的dm集市數據聚合起到提高計算效率的優化,另外對於其他如用戶畫像標簽表可以做到數據復用的目的。
dm是集市數據層,主要是針對app應用數據層,包括了統計報表類的結果數據、用戶標簽表數據及TopN的熱門數據(如商品、音樂、聊天話題等)