一 復雜業務梳理
數倉建設初期,需要了解各種業務,有些業務比較復雜,對數據開發人員的要求比較高,這個時候,需要和業務開發多交流溝通,可以看看他們的詳細設計文檔,ER圖和時序圖,多方位去了解,最終落成文檔共享
二 技術選型困難
技術選型也是需要在數倉建設前就需要考慮的,從數據抽取同步到數據處理再入供需求方使用,需要選擇比較合理的技術棧。根據實際需求去選擇。
數據同步:sqoop datax
日志采集:flume logstash filebeat
資源調度:yarn
分布式存儲:hdfs
數據處理:mr hive sparkcore sparksql flink
數據存儲;hbase mysql es
OLAP:kylin clickhouse
接口開發:springboot
三 機器配置
根據數據量及表數量,預估任務數去選機器配置及數量
四 指標定義及指標體系建設
原子指標,派生指標的定義及命名,指標評審,指標體系建設
五 統一維度管理
維度管理,一致性維度的構建
六 口徑梳理
開發之前一定要需求評審,需求方提供明確的口徑,防止后續頻繁返工
七 開發規范(文檔)
模型規范
-
項目命名規范
-
表規范
-
測試表規范
-
字段規范
-
時間分區規范
-
任務規范
-
注釋規范
-
指標一致性管理
-
詞根管理
-
字典管理
任務上線流程
-
模式說明
-
任務開發
-
任務發布
運維
-
關鍵指標預警
-
報錯處理
-
數據補錄
八 緩慢變化維處理
九 數倉分層
十 主題划分
十一 模型建設
ER模型
維度模型
Data Vault模型
Anchor模型
其中,維度模型是數據倉庫工程領域最流行的數據倉庫建模的經典
十二 數據質量管理
十三 元數據管理
十四 統一用戶識別
十五 hive調優