【文章推荐】重磅！解锁Apache Flink读写Apache Hudi新姿势

原文：重磅！解锁Apache Flink读写Apache Hudi新姿势

感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作。 . 背景 Apache Hudi 是目前最流行的数据湖解决方案之一，Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE UPDATE DELETE 场景 AWS 在 EMR 服务中预安装了 Apache Hudi，为用户提供高效的 record level updat ...

2021-04-10 12:18 0 2231 推荐指数：

查看详情

Apache Hudi与Apache Flink集成

感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架，它于2019年1月进入Apache孵化器孵化，次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi自诞生至今一直使用Spark ...

Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 ...

Apache Hudi 0.6.0版本重磅发布

1. 下载信息源码：Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包：nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南； 0.6.0版本从基于list ...

Apache Hudi 0.7.0版本重磅发布

重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering（对数据按照数据特征进行聚簇，以便优化文件大小和数据布局），Clustering提供了更灵活地方式增加文件大小，有了Clustering特性，便可更快速地摄取数据，然后聚簇为更大的文件，实验 ...

Apache Hudi重磅特性解读之全局索引

1. 摘要 Hudi表允许多种类型操作，包括非常常用的upsert，当然为支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。当前，Hudi支持分区和非分区的数据集。分区数据集是将一组文件（数据）放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成，这种组织 ...

Apache Hudi 0.8.0版本重磅发布

1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后，Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline；支持Flink写入MOR表；Flink批量读取COW和MOR表；流式 ...

Apache Hudi重磅特性解读之存量表高效迁移机制

1. 摘要随着Apache Hudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到Apache Hudi，Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力，用户需要重写整个数据集让其成为Hudi表 ...

基于Apache Hudi + Flink的亿级数据入湖实践

本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进基于Spark+Hudi的实时数据落地应用实践基于Flink自定义实时数据落地实践基于Flink+Hudi的应用实践后续应用规划及展望 1. 实时数据落地需求演进实时平台 ...

原文：重磅！解锁Apache Flink读写Apache Hudi新姿势

相关推荐

相关标签