原文:基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

. 摘要 在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费 每 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件流的无限回放 利用 Hudi 的提交时间线在超级便宜的云对象存储 如 AWS S 中存储 天的事件流 想象一个具有 天保留期的 kafka 主题 具有部分记录更新的自定义 Hudi Payload 类 . 当前状态 ...

2022-04-11 17:40 0 615 推荐指数:

查看详情

使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入 大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
字节跳动基于 Apache Hudi 的多拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多 ...

Wed Mar 30 22:15:00 CST 2022 0 707
Uber基于Apache Hudi构建PB级数据湖实践

1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织 ...

Thu Jun 11 17:29:00 CST 2020 0 943
字节跳动基于Apache Hudi构建EB级数据湖实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据湖 我们使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统 ...

Mon Aug 23 05:59:00 CST 2021 0 381
Apache Hudi使用简介

Apache Hudi使用简介 目录 Apache Hudi使用简介 数据实时处理和实时的数据 业务场景和技术选型 Apache hudi简介 使用Aapche Hudi整体思路 Hudi表数据结构 数据文件 ...

Mon Dec 28 03:47:00 CST 2020 0 1482
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM