原文:基于Spark快速构建数仓项目

基于Spark快速构建数仓项目 目录 基于Spark快速构建数仓项目 重点问题 什么是数据仓库 基于Spark集成数据源 ETL 基于Spark SQL 进行OLAP分析 QA 重点问题 数据仓库解决了什么业务问题,它和传统数据库的区别是什么 对数据仓库的基础架构有大致的了解。 使用 Spark 可以构建数据仓库的哪些核心能力 如何使用 Spark Core Streaming 扩展数据源 如何使 ...

2020-08-29 22:36 0 742 推荐指数:

查看详情

构建流程-数据中台

基本概念 业务板块:业务板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,您可以创建不同的业务板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照业务板块进行划分。在Dataphin中,项目可以归属至业务板块以实现规范建模 ...

Fri Nov 06 03:00:00 CST 2020 0 799
Hive构建及数据倾斜

Hive构建及数据倾斜 #数据倾斜 1 “英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境 ...

Sun Feb 14 05:47:00 CST 2021 0 282
备机DN重建:快速修复你的DN单点故障

摘要:大规模分布式系统中的故障无法避免。当DN发生单点故障时,恢复手段有哪些,又是如何恢复的,本节重点介绍操作gs_ctl build是如何修复DN单点故障的。 本文分享自华为云社区《华为云备机DN重建,快速修复DN单点故障!》,原文作者:welblupen。 1. 技术背景 ...

Fri Jun 25 23:05:00 CST 2021 0 170
如何构建指标体系及案例介绍

指标体系建设的方法——SCDS四步法 一、构建指标体系 在建立指标体系之前,我们先了解一下指标的构成,在我们工作过程中遇见的指标多为派生性指标,即,原子性指标+修饰词+时间段,修饰词指标本身是可选内容,而原子性指标和时间段为必选内容。 在这里,原子性指标指的是不可 ...

Wed Oct 14 20:41:00 CST 2020 0 1056
项目实战从0到1之hive(27)项目(九)搭建 - DWS 层

一、搭建 - DWS 层1.1 业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据 IMEI 号,IOS 系统根据 OpenUDID 来标识一个独立用户,每部手机一个用户2)新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP ...

Sun Sep 27 21:35:00 CST 2020 0 443
Flink on Hive构建流批一体

Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink ...

Wed Jan 06 05:14:00 CST 2021 1 883
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM