原文:Delta Lake在Soul的应用实践

简介: 传统离线数仓模式下,日志入库前首要阶段便是ETL,我们面临如下问题:天级ETL任务耗时久,影响下游依赖的产出时间 凌晨占用资源庞大,任务高峰期抢占大量集群资源 ETL任务稳定性不佳且出错需凌晨解决 影响范围大。为了解决天级ETL逐渐尖锐的问题,所以这次我们选择了近来逐渐进入大家视野的数据湖架构,基于阿里云EMR的Delta Lake,我们进一步打造优化实时数仓结构,提升部分业务指标实时性 ...

2021-03-02 11:01 0 265 推荐指数:

查看详情

Delta Lake

Delta Lake 目录 Delta Lake 重点问题 什么是 Delta Lake Delta Lake 基本功能 使用Delta Lake构建分析管道 Delta Lake 高级功能 QA ...

Sat Aug 29 07:29:00 CST 2020 0 742
Delta Lake源码分析

目录 Delta Lake源码分析 Delta Lake元数据 snapshot生成 日志提交 冲突检测(并发控制) delete update merge Delta Lake源码分析 ...

Fri Dec 27 23:35:00 CST 2019 0 835
Kudu、Hudi和Delta Lake的比较

目录 Kudu、Hudi和Delta Lake的比较 存储机制 读数据 更新数据 其他 如何选择合适的存储方案 Kudu、Hudi和Delta Lake的比较 kudu、hudi和delta lake ...

Mon Jan 06 03:58:00 CST 2020 0 6639
Delta Lake基础操作和原理

目录 Delta Lake 特性 maven依赖 使用aws s3文件系统快速启动 基础表操作 merge操作 delta lake更改现有数据的具体过程 delta表schema 事务日志 ...

Thu Dec 26 22:18:00 CST 2019 0 2808
Delta Lake基础操作和原理

Delta Lake 特性 支持ACID事务 可扩展的元数据处理 统一的流、批处理API接口 更新、删除数据,实时读写(读是读当前的最新快照) 数据版本控制,根据需要查看历史数据快照,可回滚数据 自动处理schema变化,可修改表结构 maven依赖 ...

Tue Apr 21 18:13:00 CST 2020 0 2003
【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

​简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎 ...

Wed Jul 07 01:16:00 CST 2021 0 170
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM