一、數倉為什么分層、怎么分層
1、數倉的作用
2、數倉的架構
3、數據采集層
4、數據存儲與分析
對於hive的操作,最傳統的方式是采用MapReduce
也可以通過SparkSQL操作hive
最常用的是使用Presto操作Hive
5、數倉分層的好處,為什么要對其進行分層
對數據倉庫有一定的要求
高效率:不同的粒度
高質量:數據清洗、ETL加工,在各層進行數據治理,避免用戶做出錯誤決策
高擴展性:存算能力、支持組件式業務擴展能力,不能重建數據倉庫【數據建模的合理性】
避免整個數據倉庫都需要變更,影響ETL過程
6、為什么要對數倉分層
原因:大量預處理提高效率,增強可擴展性,分布完成操作,簡化業務
二、描述DWD層的設計思路
1、分層的舉例
ODS
DWD:數據主題層/數據標准化
DWS
ADS
更多的是五層結構或更多
2、數據標准層的作用
用於數據治理
3、DWD的設計思路,數據模型如何建模
4、業務流程舉例
三、拉鏈表為什么要進行分區,分區的目的是什么
四、介紹一下每一層的設計思路,並舉個例子
五、框架原理、基礎少、有時考hive的函數