ODS(Operational Data Store):原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 在ODS一般需要2个重要的步骤,示例如下: 1.建立ODS层的Hive表。 重要说明: ①ODS层存放的是原始数据,因此只需要一个字段就行 ...
DWD Data Warehouse Detail :数据明细层,结构和粒度与原始表保持一致,对ODS层数据进行清洗 取出空值 脏数据 超过极限范围的数据 。 DWD层的数据来源于ODS原始数据层,在原始数据层的Hive表里,只有一个字段,存储了原始的一条条日志信息,下面以事件 如商品点击事件,展示详情事件 日志来说明,原始日志如下: 数据格式为服务器时间 事件json,json中又包括公共字段c ...
2020-06-25 23:35 0 1233 推荐指数:
ODS(Operational Data Store):原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 在ODS一般需要2个重要的步骤,示例如下: 1.建立ODS层的Hive表。 重要说明: ①ODS层存放的是原始数据,因此只需要一个字段就行 ...
业务数仓的DWD层一般有两个典型操作: ①因为是DWD层,所以要进行数据清洗。 ②因为数据来源于web项目的数据库,标的设计遵循三范式,因此在数仓里需要进行降维,以减少join次数。 在示例的8张表中,订单表,订单详情表,用户表,支付流水表字段与ODS层一致。对商品表的分类进行降维。增加二级 ...
ODS层数据不做任何处理,完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。 8张表建表语句: ①用sqoop把导入到HDFS的时候,加了参数--fields-terminated-by "\t",因此这里ODS层建表的时候也注意相同的分隔符。 ②不管是全量导入还是其他形式,都使 ...
为什么需要用户行为宽表?把每个用户单日的行为聚合起来组成一张多列宽表,以便之后关联用户维度信息后,进行不同角度的统计分析。 数据来源:DWD层相关的业务数据表 创建用户行为宽表: 这张宽表整合了下单、支付和评论3种行为。 数据导入脚本: with as基本语法为如下,作用 ...
本文原链接:什么是数据仓库,数仓有什么特点 数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导 ...
目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 下面是架构图: 数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应 ...
一、ODS层 1、保持数据原貌,不做任何修改 2、数据压缩:LZO压缩,减少磁盘空间 3、创建的是分区表:可以防止后续的全表扫描 包括 用户行为:string line dt ods_start; ods_event(商品列表、商品详情 ...
数据仓库分层DWD、DWB、DWS DW :data warehouse 翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSDWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层DWB:data warehouse base ...