标签【hudi】 - 码上欢乐

Hudi基本概念

Apache Hudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语插入更新 (如何改变数据集?) 增量拉取 (如何获取变更的数据?) 在本节中，我们将讨论重要的概念和术语，这些概念和术语有助于理解并有效使用这些原语。时间轴在它的核心，Hudi维护一条包含 ...

Kudu、Hudi和Delta Lake的比较

目录 Kudu、Hudi和Delta Lake的比较存储机制读数据更新数据其他如何选择合适的存储方案 Kudu、Hudi和Delta Lake的比较 kudu、hudi和delta lake ...

写入Apache Hudi数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎查询它们。写操作在此之前，了解Hudi数据源及delta streamer ...

什么是LakeHouse?

1. 引入在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。数据 ...

Apache Hudi使用问题汇总（一）

1.如何写入Hudi数据集通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用 ...

HUDI-0.11.0 BUCKET index on Flink 新特性试用

1.背景在0.10.1版本下，用默认的index(FLINK_STATE)，在upsert的模式下，几十亿级别的数据更新会很消耗内存以及ckp时过长，因此切换到0.11.0的BUCKET索引；仅对于当前环境：flink1.13.2 + hudi 0.11.0-(master ...

hudi clustering 数据聚集（三 zorder使用）

目前最新的 hudi 版本为 0.9，暂时还不支持 zorder 功能，但 master 分支已经合入了（RFC-28)，所以可以自己编译 master 分支，提前体验下 zorder 效果。环境 1、直接下载 master 分支进行编译，本地使用 spark3，所以使用编译命令 ...

字节跳动数据湖技术选型的思考与落地实践

Hudi PMC Member 随着 Flink 社区的不断发展，越来越多的公司将 Flink 作为首 ...

hudi clustering 数据聚集（二）

小文件合并解析执行代码：以上示例中，指定了进行 clustering 的触发频率：每4次提交就触发一次，并指定了文件相关大小：生成新文件的最大大小、小文件最小大小。执行步骤： 1、生 ...

hudi clustering 数据聚集（一）

概要数据湖的业务场景主要包括对数据库、日志、文件的分析，而管理数据湖有两点比较重要：写入的吞吐量和查询性能，这里主要说明以下问题： hudi clustering hudi支持clustering功能，在不影响查询性能的情况下提高写入吞吐量。该功能可以以不同方式重写数据： 1、数据 ...

相关标签