一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表 ...
基于Spark快速构建数仓项目 目录 基于Spark快速构建数仓项目 重点问题 什么是数据仓库 基于Spark集成数据源 ETL 基于Spark SQL 进行OLAP分析 QA 重点问题 数据仓库解决了什么业务问题,它和传统数据库的区别是什么 对数据仓库的基础架构有大致的了解。 使用 Spark 可以构建数据仓库的哪些核心能力 如何使用 Spark Core Streaming 扩展数据源 如何使 ...
2020-08-29 22:36 0 742 推荐指数:
一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表 ...
基本概念 业务板块:业务板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,您可以创建不同的业务板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照业务板块进行划分。在Dataphin中,项目可以归属至业务板块以实现规范建模 ...
Hive数仓构建及数据倾斜 #数据倾斜 1 “英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境 ...
摘要:大规模分布式系统中的故障无法避免。当DN发生单点故障时,恢复手段有哪些,又是如何恢复的,本节重点介绍操作gs_ctl build是如何修复DN单点故障的。 本文分享自华为云社区《华为云数仓备机DN重建,快速修复DN单点故障!》,原文作者:welblupen。 1. 技术背景 ...
指标体系建设的方法——SCDS四步法 一、构建指标体系 在建立指标体系之前,我们先了解一下指标的构成,在我们工作过程中遇见的指标多为派生性指标,即,原子性指标+修饰词+时间段,修饰词指标本身是可选内容,而原子性指标和时间段为必选内容。 在这里,原子性指标指的是不可 ...
一、用户行为数仓. 1、数仓分层架构图 2、埋点行为数据基本格式(基本字段) 3、项目经验总结 MySQL的高可用 存储元数据,搭建时要进行高可用HA 4、日期函数 1)date_add、date_sub函数(加减日期)2)next_day函数(周指标相关 ...
一、数仓搭建 - DWS 层1.1 业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据 IMEI 号,IOS 系统根据 OpenUDID 来标识一个独立用户,每部手机一个用户2)新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP ...
Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink ...