数仓分层 1.ODS层 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,起到备份数据的作用。数据采用LZO压缩,并创建索引减少磁盘存储空间(切片)。创建分区表,防止后续全表扫描。可以通过创建外部表供多人使用,内部表(仅供自己使用) 2.DWD层 明细数据层,对ODS层数 ...
建表SQL参考: 每个字典一个表,比如办学类型一个表dim bxlx,民族一个表dim mz 更新 通常标准字典表中的字典名和原始表会有出入,例如标准字典为男女,原始为男性女性,则需要一个原始字典名和值的映射,加上不同表的原始字典名字典值是不一样的,这样使用分组列来区分即可 基于产品映射的考虑,字典表设计可以是以下字段: 标准字典名 标准字典值 原始字典名 原始字典值 分组列 这样一个基本的码表就 ...
2019-03-20 17:05 0 901 推荐指数:
数仓分层 1.ODS层 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,起到备份数据的作用。数据采用LZO压缩,并创建索引减少磁盘存储空间(切片)。创建分区表,防止后续全表扫描。可以通过创建外部表供多人使用,内部表(仅供自己使用) 2.DWD层 明细数据层,对ODS层数 ...
什么是维度 维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实” ,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。 例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。 什么是维度属性 维度所包含的表示维度的列,称为维度属性。维度 ...
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。 文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓 ...
一、数据模型架构原则 1. 数仓分层原则 优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好? 目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为 ...
为什么要设计数据分层 ——参考《一种通用的数据仓库分层方法》 这是数据仓库同学在设计数据分层时首先要被挑战的问题,类似的问题可能会有很多,比如说“为什么要做数据仓库?”、“为什么要做元数据管理 ...
1. 什么是指标体系 ▍1.1 指标体系定义 指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。 指标 ...
做系统设计以及涉及数据分析的时候,会涉及到各种期间维度的统计计算。 可以按日期生成期间维度表,如下: 1.按期间生成日期表 DROP TABLE IF EXISTS `v_day`; CREATE TABLE `v_day` (`oc_date` varchar(20) DEFAULT ...
一 复杂业务梳理 数仓建设初期,需要了解各种业务,有些业务比较复杂,对数据开发人员的要求比较高,这个时候,需要和业务开发多交流沟通,可以看看他们的详细设计文档,ER图和时序图,多方位去了解,最终落成文档共享 二 技术选型困难 技术选型也是需要在数仓建设前就需要考虑的,从数据抽取同步 ...