【文章推薦】重磅！解鎖Apache Flink讀寫Apache Hudi新姿勢

原文：重磅！解鎖Apache Flink讀寫Apache Hudi新姿勢

感謝阿里雲 Blink 團隊Danny Chan的投稿及完善Flink與Hudi集成工作。 . 背景 Apache Hudi 是目前最流行的數據湖解決方案之一，Data Lake Analytics 集成了 Hudi 服務高效的數據 MERGE UPDATE DELETE 場景 AWS 在 EMR 服務中預安裝了 Apache Hudi，為用戶提供高效的 record level updat ...

2021-04-10 12:18 0 2231 推薦指數：

查看詳情

Apache Hudi與Apache Flink集成

感謝王祥虎@wangxianghu 投稿 Apache Hudi是由Uber開發並開源的數據湖框架，它於2019年1月進入Apache孵化器孵化，次年5月份順利畢業晉升為Apache頂級項目。是當前最為熱門的數據湖框架之一。 1. 為何要解耦 Hudi自誕生至今一直使用Spark ...

Apache Hudi 0.5.1版本重磅發布

歷經大約3個月時間，Apache Hudi 社區終於發布了0.5.1版本，這是Apache Hudi發布的第二個Apache版本，該版本中一些關鍵點如下版本升級將Spark版本從2.1.0升級到2.4.4 將Avro版本從1.7.7升級到1.8.2 ...

Apache Hudi 0.6.0版本重磅發布

1. 下載信息源碼：Apache Hudi 0.6.0 Source Release (asc, sha512) 二進制Jar包：nexus 2. 遷移指南如果您從0.5.3以前的版本遷移至0.6.0，請仔細核對每個版本的遷移指南； 0.6.0版本從基於list ...

Apache Hudi 0.7.0版本重磅發布

重點特性 1. Clustering 0.7.0版本中支持了對Hudi表數據進行Clustering（對數據按照數據特征進行聚簇，以便優化文件大小和數據布局），Clustering提供了更靈活地方式增加文件大小，有了Clustering特性，便可更快速地攝取數據，然后聚簇為更大的文件，實驗 ...

Apache Hudi重磅特性解讀之全局索引

1. 摘要 Hudi表允許多種類型操作，包括非常常用的upsert，當然為支持upsert，Hudi依賴索引機制來定位記錄在哪些文件中。當前，Hudi支持分區和非分區的數據集。分區數據集是將一組文件（數據）放在稱為分區的桶中的數據集。一個Hudi數據集可能由N個分區和M個文件組成，這種組織 ...

Apache Hudi 0.8.0版本重磅發布

1. 重點特性 1.1 Flink集成自從Hudi 0.7.0版本支持Flink寫入后，Hudi社區又進一步完善了Flink和Hudi的集成。包括重新設計性能更好、擴展性更好、基於Flink狀態索引的寫入Pipeline；支持Flink寫入MOR表；Flink批量讀取COW和MOR表；流式 ...

Apache Hudi重磅特性解讀之存量表高效遷移機制

1. 摘要隨着Apache Hudi變得越來越流行，一個挑戰就是用戶如何將存量的歷史表遷移到Apache Hudi，Apache Hudi維護了記錄級別的元數據以便提供upserts和增量拉取的核心能力。為利用Hudi的upsert和增量拉取能力，用戶需要重寫整個數據集讓其成為Hudi表 ...

基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐實時數據落地需求演進基於Spark+Hudi的實時數據落地應用實踐基於Flink自定義實時數據落地實踐基於Flink+Hudi的應用實踐后續應用規划及展望 1. 實時數據落地需求演進實時平台 ...

原文：重磅！解鎖Apache Flink讀寫Apache Hudi新姿勢

相關推薦

相關標簽