【文章推荐】字节跳动基于Apache Hudi构建EB级数据湖实践

原文：字节跳动基于Apache Hudi构建EB级数据湖实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。接下来将分为场景需求设计选型功能支持性能调优未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。在推荐系统中，我们在两个场景下使用数据湖我们使用BigTable作为整个系统近线处理的数据存储，这是一个公司自研的组件TBase，提供了BigTable的语义和搜索推荐广告场景下一些需求的 ...

2021-08-29 09:26 0 367 推荐指数：

查看详情

Uber基于Apache Hudi构建PB级数据湖实践

1. 引言从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织 ...

基于Apache Hudi + Flink的亿级数据入湖实践

本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进基于Spark+Hudi的实时数据落地应用实践基于Flink自定义实时数据落地实践基于Flink+Hudi的应用实践后续应用规划及展望 1. 实时数据落地需求演进实时平台 ...

Apache Hudi 在 B 站构建实时数据湖的实践

简介： B 站选择 Flink + Hudi 的数据湖技术方案，以及针对其做出的优化。本文作者喻兆靖，介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案，以及针对其做出的优化。主要内容为：传统离线数仓痛点数据湖技术方案 Hudi 任务稳定性 ...

数据湖-Apache Hudi

Hudi特性数据湖处理非结构化数据、日志数据、结构化数据支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证并具有回滚功能 savepoint 用户数据 ...

字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。该方案在存储层提供对多流 ...

使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率 ...

字节跳动数据湖技术选型的思考与落地实践

本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲，着重分享了字节跳动数据湖技术上的选型思考和探索实践。文 | Gary Li 字节跳动数据平台开发套件团队高级研发工程师，数据湖开源项目 Apache ...

基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统 ...

原文：字节跳动基于Apache Hudi构建EB级数据湖实践

相关推荐

相关标签