原文:字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流 JOIN 遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及实 ...

2022-03-30 14:15 0 707 推荐指数:

查看详情

字节跳动基于Apache Hudi构建EB级数据湖实践

来自字节跳动的管梓越同学一篇关于Apache Hudi字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据湖 我们使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
深度介绍Flink在字节跳动数据实践

本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据实践字节跳动数据的业务背景 数据处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务 ...

Wed Jan 12 21:10:00 CST 2022 1 1787
触宝科技基于Apache Hudi批一体架构实践

1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批一体计算引擎处理,最后输出到下游对应的存储。 2. 模型特征架构的演进 2.1 第一代架构 ...

Mon Jul 12 06:51:00 CST 2021 0 561
字节跳动在 Go 网络库上的实践

https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作为研发体系中重要的一环,承载了几乎所有的服务流量。本文将简单介绍字节跳动自研网络库 netpoll 的设计及实践;以及我们实际遇到的问题和解决思路,希望能为大家提供一些 ...

Wed May 20 06:00:00 CST 2020 0 594
生态 | Apache Hudi集成Alluxio实践

接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。 ...

Tue Jul 21 04:51:00 CST 2020 0 870
Uber基于Apache Hudi构建PB级数据湖实践

1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织 ...

Thu Jun 11 17:29:00 CST 2020 0 943
基于 Apache Hudi 构建增量和无限回放事件的 OLAP 平台

1. 摘要 在本博客中,我们将讨论在构建数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 ...

Tue Apr 12 01:40:00 CST 2022 0 615
基于Apache Hudi + Flink的亿级数据入湖实践

本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM