原文:使用Apache Spark和Apache Hudi构建分析数据湖

. 引入 大多数现代数据湖都是基于某种分布式文件系统 DFS ,如HDFS或基于云的存储,如AWS S 构建的。遵循的基本原则之一是文件的 一次写入多次读取 访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率可能是每小时一次,甚至可能是每天或每周一次。另外可能还需要在最新视图 包含所有更新的历史视图甚至仅是最新增量 ...

2020-06-15 09:27 0 3251 推荐指数:

查看详情

数据-Apache Hudi

Hudi特性 数据处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据 ...

Sat Jan 30 21:12:00 CST 2021 0 443
字节跳动基于Apache Hudi构建EB级数据实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据 我们使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
基于Apache Hudi构建数据的典型应用场景介绍

1. 传统数据存在的问题与挑战 传统数据解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统 ...

Mon Aug 23 05:59:00 CST 2021 0 381
Apache Hudi 在 B 站构建实时数据的实践

​简介: B 站选择 Flink + Hudi数据技术方案,以及针对其做出的优化。 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi数据技术方案,以及针对其做出的优化。主要内容为: 传统离线数仓痛点 数据技术方案 Hudi 任务稳定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
Uber基于Apache Hudi构建PB级数据实践

1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织 ...

Thu Jun 11 17:29:00 CST 2020 0 943
使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据

1. 引入 数据使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好、更快的决策。Amazon Simple Storage Service(amazon S3)是针对结构化和非结构化数据的高性能对象存储服务,可以用来作为数据湖底层的存储服务 ...

Thu Nov 05 19:45:00 CST 2020 0 612
使用Apache Hudi构建大规模、事务性数据

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据原语等。 什么是数据数据是一个集中式 ...

Sun Jun 28 05:30:00 CST 2020 0 1422
基于Apache Hudi 的CDC数据

作者:李少锋 文章目录: 一、CDC背景介绍 二、CDC数据 三、Hudi核心设计 四、Hudi未来规划 1. CDC背景介绍 首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些 ...

Mon Oct 25 04:15:00 CST 2021 0 1292
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM