標簽【hudi】 - 碼上歡樂

Hudi基本概念

Apache Hudi(發音為“Hoodie”)在DFS的數據集上提供以下流原語插入更新 (如何改變數據集?) 增量拉取 (如何獲取變更的數據?) 在本節中，我們將討論重要的概念和術語，這些概念和術語有助於理解並有效使用這些原語。時間軸在它的核心，Hudi維護一條包含 ...

Kudu、Hudi和Delta Lake的比較

目錄 Kudu、Hudi和Delta Lake的比較存儲機制讀數據更新數據其他如何選擇合適的存儲方案 Kudu、Hudi和Delta Lake的比較 kudu、hudi和delta lake ...

寫入Apache Hudi數據集

這一節我們將介紹使用DeltaStreamer工具從外部源甚至其他Hudi數據集攝取新更改的方法，以及通過使用Hudi數據源的upserts加快大型Spark作業的方法。對於此類數據集，我們可以使用各種查詢引擎查詢它們。寫操作在此之前，了解Hudi數據源及delta streamer ...

什么是LakeHouse?

1. 引入在Databricks的過去幾年中，我們看到了一種新的數據管理范式，該范式出現在許多客戶和案例中：LakeHouse。在這篇文章中，我們將描述這種新范式及其相對於先前方案的優勢。數據 ...

Apache Hudi使用問題匯總（一）

1.如何寫入Hudi數據集通常，你會從源獲取部分更新/插入，然后對Hudi數據集執行寫入操作。如果從其他標准來源（如Kafka或tailf DFS）中提取數據，那么DeltaStreamer將會非常有用，其提供了一種簡單的自我管理解決方案，可將數據寫入Hudi。你還可以自己編寫代碼，使用 ...

HUDI-0.11.0 BUCKET index on Flink 新特性試用

1.背景在0.10.1版本下，用默認的index(FLINK_STATE)，在upsert的模式下，幾十億級別的數據更新會很消耗內存以及ckp時過長，因此切換到0.11.0的BUCKET索引；僅對於當前環境：flink1.13.2 + hudi 0.11.0-(master ...

hudi clustering 數據聚集（三 zorder使用）

目前最新的 hudi 版本為 0.9，暫時還不支持 zorder 功能，但 master 分支已經合入了（RFC-28)，所以可以自己編譯 master 分支，提前體驗下 zorder 效果。環境 1、直接下載 master 分支進行編譯，本地使用 spark3，所以使用編譯命令 ...

字節跳動數據湖技術選型的思考與落地實踐

Hudi PMC Member 隨着 Flink 社區的不斷發展，越來越多的公司將 Flink 作為首 ...

hudi clustering 數據聚集（二）

小文件合並解析執行代碼：以上示例中，指定了進行 clustering 的觸發頻率：每4次提交就觸發一次，並指定了文件相關大小：生成新文件的最大大小、小文件最小大小。執行步驟： 1、生 ...

hudi clustering 數據聚集（一）

概要數據湖的業務場景主要包括對數據庫、日志、文件的分析，而管理數據湖有兩點比較重要：寫入的吞吐量和查詢性能，這里主要說明以下問題： hudi clustering hudi支持clustering功能，在不影響查詢性能的情況下提高寫入吞吐量。該功能可以以不同方式重寫數據： 1、數據 ...

相關標簽