04-數據倉庫之數據同步策略


1、數據同步

      因為我們需要每天分析的數據都是最新的!!!所以就涉及數據的同步

2、表的分類

      ①實體表:

          一般是指一個現實存在的業務對象,比如用戶,商品,商家,銷售員等   

         ②維度表:

          一般是指對應一些業務狀態,代碼的解釋表,也可以稱之為碼表。比如地區表,訂單類型,支付類型,商品類別......

         ③事實表

           1)事務型事實表:

              一般指隨着業務發生不斷產生的數據,特點是一旦發生不會再改變,比如:交易流水、操作日志、出入庫記錄等

            2)周期型事實表:

              一般指隨着業務發生不斷產生的數據。與事務型不同的是,數據會隨着業務周期性的推進而變化。

              比如訂單表,其中有一個字段,訂單狀態,這個會周期性變化。 再比如,請假、貸款申請,隨着批復狀態在周期性變化。

 

       注:事實表:數據很龐大,比如訂單,那么每天可能就有幾萬條、幾億條,而且十年前的訂單和今天的訂單都要存起來!!

         實體表:數據量中等,比如用戶:13億以內  、商品:幾億以內等

         維度表:數據量最小

3、同步策略

    

    

    ①固定維度表:比如中國的省份表, 不會增加,不會變動固定存一份就行。

    ②事務性事實表:比如訂單流水,    只會增加,不會變動每日增量

 

    ③周期型事務表、實體表、一般維度表我的建議是將增加及變化量做拉鏈表  或者 每日全量(數據量大不要考慮)

    

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM