目录 1. ODS 数据准备层 2. DWD 数据明细层 3. DW(B/S) 数据汇总层 4. DM 数据集市层 5. ST 数据应用层 解码OneData,阿里的数仓之路 1. ODS 数据准备层 功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务 ...
建表说明 ADS层不涉及建模,建表根据具体需求而定。 第一章 访客主题 . 访客统计 该需求为访客综合统计,其中包含若干指标,以下为对每个指标的解释说明。 指标 说明 对应字段 访客数 统计访问人数 uv count 页面停留时长 统计所有页面访问记录总时长,以秒为单位 duration sec 平均页面停留时长 统计每个会话平均停留时长,以秒为单位 avg duration sec 页面浏览总数 ...
2022-02-18 11:41 0 1105 推荐指数:
目录 1. ODS 数据准备层 2. DWD 数据明细层 3. DW(B/S) 数据汇总层 4. DM 数据集市层 5. ST 数据应用层 解码OneData,阿里的数仓之路 1. ODS 数据准备层 功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务 ...
@ 目录 数据流向 何为数仓DW 主要特点 与数据库的对比 为何要分层 数据分层 数据运营层ODS 数据仓库层 数据细节层DWD 数据中间层DWM 数据服务层 ...
业务数仓的DWD层一般有两个典型操作: ①因为是DWD层,所以要进行数据清洗。 ②因为数据来源于web项目的数据库,标的设计遵循三范式,因此在数仓里需要进行降维,以减少join次数。 在示例的8张表中,订单表,订单详情表,用户表,支付流水表字段与ODS层一致。对商品表的分类进行降维。增加二级 ...
为什么需要用户行为宽表?把每个用户单日的行为聚合起来组成一张多列宽表,以便之后关联用户维度信息后,进行不同角度的统计分析。 数据来源:DWD层相关的业务数据表 创建用户行为宽表: 这张宽表整合了下单、支付和评论3种行为。 数据导入脚本: with as基本语法为如下,作用 ...
ODS层数据不做任何处理,完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。 8张表建表语句: ①用sqoop把导入到HDFS的时候,加了参数--fields-terminated-by "\t",因此这里ODS层建表的时候也注意相同的分隔符。 ②不管是全量导入还是其他形式,都使 ...
1. 什么是数据仓库? 在wiki中对数据仓库的解释是: 在计算中,数据仓库(DW或DWH),也称为企业数据仓库(EDW),是用于报告和数据分析的系统,被认为是商业智能的核心组成部分 DW是来自一个或多个不同来源的集成数据的中央存储库。 他们将当前和历史数据存储在一个地方,用于为整个企业 ...
声明: 1. 本栏是个人总结,如有错漏,请指正 2. 数据仓库的构建目前业界只有指导方案,并没有统一的标准,每个公司都可以按照实际情况进行设计 3. 本总结参考《阿里巴巴大数据之路》、《数据仓库工具箱》 产生背景 ...
第一章 数仓搭建-ODS层 1)保持数据原貌不做任何修改,起到备份数据的作用。 2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。 3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。 4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外 ...