1、數據同步
因為我們需要每天分析的數據都是最新的!!!所以就涉及數據的同步
2、表的分類
①實體表:
一般是指一個現實存在的業務對象,比如用戶,商品,商家,銷售員等
②維度表:
一般是指對應一些業務狀態,代碼的解釋表,也可以稱之為碼表。比如地區表,訂單類型,支付類型,商品類別......
③事實表
1)事務型事實表:
一般指隨着業務發生不斷產生的數據,特點是一旦發生不會再改變,比如:交易流水、操作日志、出入庫記錄等
2)周期型事實表:
一般指隨着業務發生不斷產生的數據。與事務型不同的是,數據會隨着業務周期性的推進而變化。
比如訂單表,其中有一個字段,訂單狀態,這個會周期性變化。 再比如,請假、貸款申請,隨着批復狀態在周期性變化。
注:事實表:數據很龐大,比如訂單,那么每天可能就有幾萬條、幾億條,而且十年前的訂單和今天的訂單都要存起來!!
實體表:數據量中等,比如用戶:13億以內 、商品:幾億以內等
維度表:數據量最小
3、同步策略
①固定維度表:比如中國的省份表, 不會增加,不會變動,固定存一份就行。
②事務性事實表:比如訂單流水, 只會增加,不會變動。每日增量。
③周期型事務表、實體表、一般維度表 :我的建議是將增加及變化量做拉鏈表 或者 每日全量(數據量大不要考慮)