原文:百信银行基于 Apache Hudi 实时数据湖演进方案

简介:本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在 Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式。 本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在 Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式。内容包括: 背景 百信银行基于 Flink 的实时计算平台设计与实践 百信银行实时计算平台与实时 ...

2021-05-14 09:34 0 285 推荐指数:

查看详情

Apache Hudi 在 B 站构建实时数据的实践

​简介: B 站选择 Flink + Hudi数据技术方案,以及针对其做出的优化。 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi数据技术方案,以及针对其做出的优化。主要内容为: 传统离线数仓痛点 数据技术方案 Hudi 任务稳定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
数据-Apache Hudi

Hudi特性 数据处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据 ...

Sat Jan 30 21:12:00 CST 2021 0 443
Apache Hudi:云数据解决方案

1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals ...

Sun Jun 21 20:43:00 CST 2020 0 1096
基于Apache Hudi 的CDC数据

作者:李少锋 文章目录: 一、CDC背景介绍 二、CDC数据 三、Hudi核心设计 四、Hudi未来规划 1. CDC背景介绍 首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些 ...

Mon Oct 25 04:15:00 CST 2021 0 1292
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据方案

摘要:今天我们就来解构数据的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据方案选型。 背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据提供应对突变和事务处理的能力。在数据中 ...

Thu Oct 29 23:23:00 CST 2020 1 2065
使用Apache Spark和Apache Hudi构建分析数据

1. 引入 大多数现代数据都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数GB到TB的数据。 但是在构建分析数据时,更新数据并不罕见。根据不同场景,这些更新频率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
基于Apache Hudi + Flink的亿级数据实践

本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
数据| Hudi

1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中 ...

Mon Sep 27 05:36:00 CST 2021 0 165
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM