數倉分層


1.分層目的

  數據能夠有秩序地流轉,數據的整個生命周期能夠清晰明確被設計者和使用者感知到

  層次清晰、依賴關系直觀

 

2.分層的優點:

清晰數據結構:每一個數據分層都有它的作用域和職責,在使用表的時候能更方便地定位和理解

減少重復開發:規范數據分層,開發一些通用的中間層數據,能夠減少極大的重復計算

統一數據口徑:通過數據分層,提供統一的數據出口,統一對外輸出的數據口徑

復雜問題簡單化:將一個復雜的任務分解成多個步驟來完成,每一層解決特定的問題

 

3.一種通用的數據結構

ODS層:貼源層(近源層)

               來源於各個業務系統數據

               為了后續能夠追溯問題,ods層一般不做過多的數據清洗工作,直抽各個業務系統數據,可以做部分的ETL清洗,如統一單位、命名、編碼等

 

 DW層:數據倉庫層

              數據倉庫的核心層。從ods獲取數據按照主題建立數據模型。

     可細分為:DWD(數據明細層)  DWM(數據中間層)  DWS(數據中間層)

              DWD:保存跟ods層一樣的數據粒度,並提供一定的數據質量保證。

        為提高明細的易用性,減少事實表與維表的關聯,該層會采用維度退化手段,將維度退化至事實表中。

        該層也會做數據聚合,將相同主題的數據匯集至一張表中

    DWM:在DWD數據基礎上,做輕度聚合,生成一系列中間表,提高公共指標的復用性,減少重復加工

       即:對通用的核心維度進行聚合操作

    DWS:數據集市/寬表

       按照業務划分,生成字段較多的寬表,用於提供后續的業務查詢,olap分析,數據分發等。

         該層的數據表相對較少,一張表會涵蓋比較多的業務內容,由於字段數較多,因此會稱該層的表為寬表

 ADS:數據應用層

    提供給數據產品,數據分析使用的數據。

DIM:維表層

            高基數維度數據:用戶資料表、商品信息表  數據量上千萬 上億

            低基數維度數據:配置表,數據量在個位數 或者幾千幾萬


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM