原文:Apache Hudi 在 B 站构建实时数据湖的实践

简介:B 站选择 Flink Hudi 的数据湖技术方案,以及针对其做出的优化。 本文作者喻兆靖,介绍了为什么 B 站选择 Flink Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为: 传统离线数仓痛点 数据湖技术方案 Hudi 任务稳定性保障 数据入湖实践 增量数据湖平台收益 社区贡献 未来的发展与思考 一 传统离线数仓痛点 . 痛点 之前 B 站数仓的入仓流程大致如下所示: 在 ...

2021-09-10 11:19 0 112 推荐指数:

查看详情

字节跳动基于Apache Hudi构建EB级数据实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据 我们使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
Uber基于Apache Hudi构建PB级数据实践

1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织 ...

Thu Jun 11 17:29:00 CST 2020 0 943
百信银行基于 Apache Hudi 实时数据演进方案

简介: 本文介绍了百信银行实时计算平台的建设情况,实时数据构建Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式。 本文介绍了百信银行实时计算平台的建设情况,实时数据构建Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi ...

Fri May 14 17:34:00 CST 2021 0 285
数据-Apache Hudi

Hudi特性 数据处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据 ...

Sat Jan 30 21:12:00 CST 2021 0 443
使用Apache Spark和Apache Hudi构建分析数据

1. 引入 大多数现代数据都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据时,更新数据并不罕见。根据不同场景,这些更新频率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
基于Apache Hudi + Flink的亿级数据实践

本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
基于Apache Hudi构建数据的典型应用场景介绍

1. 传统数据存在的问题与挑战 传统数据解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统 ...

Mon Aug 23 05:59:00 CST 2021 0 381
网易数帆实时数据 Arctic 的探索和实践

作者 | 蔡芳芳 采访嘉宾 | 马进 网易数帆平台开发专家 数据中台也要从离线为主走向实时化,仓一体是第一步。 数据从离线到实时是当前一个很大的趋势,但要建设实时数据、应用实时数据还面临两个难题。首先是实时和离线的技术栈不统一,导致系统和研发重复投入,在这之上 ...

Fri Dec 10 01:29:00 CST 2021 0 169
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM