【数仓面试】数仓分层架构、作用、数据采集层、数据存储与分析、数仓分层的好处


一、数仓为什么分层、怎么分层

1、数仓的作用

 

2、数仓的架构

 

3、数据采集层

 

4、数据存储与分析

 

 

 

 对于hive的操作,最传统的方式是采用MapReduce

也可以通过SparkSQL操作hive

最常用的是使用Presto操作Hive

5、数仓分层的好处,为什么要对其进行分层

对数据仓库有一定的要求

 

高效率:不同的粒度

高质量:数据清洗、ETL加工,在各层进行数据治理,避免用户做出错误决策

高扩展性:存算能力、支持组件式业务扩展能力,不能重建数据仓库【数据建模的合理性】

避免整个数据仓库都需要变更,影响ETL过程

6、为什么要对数仓分层

 

 原因:大量预处理提高效率,增强可扩展性,分布完成操作,简化业务

二、描述DWD层的设计思路

1、分层的举例

ODS

DWD:数据主题层/数据标准化

DWS

ADS

更多的是五层结构或更多

2、数据标准层的作用

用于数据治理

3、DWD的设计思路,数据模型如何建模

4、业务流程举例

三、拉链表为什么要进行分区,分区的目的是什么

四、介绍一下每一层的设计思路,并举个例子

五、框架原理、基础少、有时考hive的函数


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM