從0-1建設數倉遇到什么問題?怎么解決的?


一 復雜業務梳理

 數倉建設初期,需要了解各種業務,有些業務比較復雜,對數據開發人員的要求比較高,這個時候,需要和業務開發多交流溝通,可以看看他們的詳細設計文檔,ER圖和時序圖,多方位去了解,最終落成文檔共享

二 技術選型困難

技術選型也是需要在數倉建設前就需要考慮的,從數據抽取同步到數據處理再入供需求方使用,需要選擇比較合理的技術棧。根據實際需求去選擇。

數據同步:sqoop  datax

日志采集:flume  logstash  filebeat

資源調度:yarn

分布式存儲:hdfs

數據處理:mr hive sparkcore sparksql flink

數據存儲;hbase mysql es

OLAP:kylin  clickhouse

接口開發:springboot

三 機器配置

根據數據量及表數量,預估任務數去選機器配置及數量

四 指標定義及指標體系建設

原子指標,派生指標的定義及命名,指標評審,指標體系建設

五 統一維度管理

維度管理,一致性維度的構建

六 口徑梳理

開發之前一定要需求評審,需求方提供明確的口徑,防止后續頻繁返工

七 開發規范(文檔)

模型規范

  • 項目命名規范

  • 表規范

  • 測試表規范

  • 字段規范

  • 時間分區規范

  • 任務規范

  • 注釋規范

  • 指標一致性管理

  • 詞根管理

  • 字典管理

任務上線流程

  • 模式說明

  • 任務開發

  • 任務發布

運維

  • 關鍵指標預警

  • 報錯處理

  • 數據補錄

八 緩慢變化維處理

緩慢變化維(SCD)常見解決方案

九 數倉分層

數據倉庫分層架構

 

 主題划分

 

十一 模型建設

 

數據建模知多少?

 

ER模型

維度模型

Data Vault模型

Anchor模型

其中,維度模型是數據倉庫工程領域最流行的數據倉庫建模的經典

 

十二 數據質量管理

 

數據質量那點事

 

十三 元數據管理

 

簡述元數據管理

 

十四 統一用戶識別

 

ID-Mapping

 

十五 hive調優

 

Hive調優,數據工程師成神之路

 

 

 

參考地址:大數據私房菜

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM