1.分層目的
數據能夠有秩序地流轉,數據的整個生命周期能夠清晰明確被設計者和使用者感知到
層次清晰、依賴關系直觀
2.分層的優點:
清晰數據結構:每一個數據分層都有它的作用域和職責,在使用表的時候能更方便地定位和理解
減少重復開發:規范數據分層,開發一些通用的中間層數據,能夠減少極大的重復計算
統一數據口徑:通過數據分層,提供統一的數據出口,統一對外輸出的數據口徑
復雜問題簡單化:將一個復雜的任務分解成多個步驟來完成,每一層解決特定的問題
3.一種通用的數據結構
ODS層:貼源層(近源層)
來源於各個業務系統數據
為了后續能夠追溯問題,ods層一般不做過多的數據清洗工作,直抽各個業務系統數據,可以做部分的ETL清洗,如統一單位、命名、編碼等
DW層:數據倉庫層
數據倉庫的核心層。從ods獲取數據按照主題建立數據模型。
可細分為:DWD(數據明細層) DWM(數據中間層) DWS(數據中間層)
DWD:保存跟ods層一樣的數據粒度,並提供一定的數據質量保證。
為提高明細的易用性,減少事實表與維表的關聯,該層會采用維度退化手段,將維度退化至事實表中。
該層也會做數據聚合,將相同主題的數據匯集至一張表中
DWM:在DWD數據基礎上,做輕度聚合,生成一系列中間表,提高公共指標的復用性,減少重復加工
即:對通用的核心維度進行聚合操作
DWS:數據集市/寬表
按照業務划分,生成字段較多的寬表,用於提供后續的業務查詢,olap分析,數據分發等。
該層的數據表相對較少,一張表會涵蓋比較多的業務內容,由於字段數較多,因此會稱該層的表為寬表
ADS:數據應用層
提供給數據產品,數據分析使用的數據。
DIM:維表層
高基數維度數據:用戶資料表、商品信息表 數據量上千萬 上億
低基數維度數據:配置表,數據量在個位數 或者幾千幾萬