【數倉面試】數倉分層架構、作用、數據采集層、數據存儲與分析、數倉分層的好處


一、數倉為什么分層、怎么分層

1、數倉的作用

 

2、數倉的架構

 

3、數據采集層

 

4、數據存儲與分析

 

 

 

 對於hive的操作,最傳統的方式是采用MapReduce

也可以通過SparkSQL操作hive

最常用的是使用Presto操作Hive

5、數倉分層的好處,為什么要對其進行分層

對數據倉庫有一定的要求

 

高效率:不同的粒度

高質量:數據清洗、ETL加工,在各層進行數據治理,避免用戶做出錯誤決策

高擴展性:存算能力、支持組件式業務擴展能力,不能重建數據倉庫【數據建模的合理性】

避免整個數據倉庫都需要變更,影響ETL過程

6、為什么要對數倉分層

 

 原因:大量預處理提高效率,增強可擴展性,分布完成操作,簡化業務

二、描述DWD層的設計思路

1、分層的舉例

ODS

DWD:數據主題層/數據標准化

DWS

ADS

更多的是五層結構或更多

2、數據標准層的作用

用於數據治理

3、DWD的設計思路,數據模型如何建模

4、業務流程舉例

三、拉鏈表為什么要進行分區,分區的目的是什么

四、介紹一下每一層的設計思路,並舉個例子

五、框架原理、基礎少、有時考hive的函數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM