原文:重磅!解鎖Apache Flink讀寫Apache Hudi新姿勢

感謝阿里雲 Blink 團隊Danny Chan的投稿及完善Flink與Hudi集成工作。 . 背景 Apache Hudi 是目前最流行的數據湖解決方案之一,Data Lake Analytics 集成了 Hudi 服務高效的數據 MERGE UPDATE DELETE 場景 AWS 在 EMR 服務中 預安裝 了 Apache Hudi,為用戶提供高效的 record level updat ...

2021-04-10 12:18 0 2231 推薦指數:

查看詳情

Apache HudiApache Flink集成

感謝王祥虎@wangxianghu 投稿 Apache Hudi是由Uber開發並開源的數據湖框架,它於2019年1月進入Apache孵化器孵化,次年5月份順利畢業晉升為Apache頂級項目。是當前最為熱門的數據湖框架之一。 1. 為何要解耦 Hudi自誕生至今一直使用Spark ...

Tue Oct 13 17:53:00 CST 2020 0 3450
Apache Hudi 0.5.1版本重磅發布

歷經大約3個月時間,Apache Hudi 社區終於發布了0.5.1版本,這是Apache Hudi發布的第二個Apache版本,該版本中一些關鍵點如下 版本升級 將Spark版本從2.1.0升級到2.4.4 將Avro版本從1.7.7升級到1.8.2 ...

Sat Feb 01 08:51:00 CST 2020 0 203
Apache Hudi 0.6.0版本重磅發布

1. 下載信息 源碼:Apache Hudi 0.6.0 Source Release (asc, sha512) 二進制Jar包:nexus 2. 遷移指南 如果您從0.5.3以前的版本遷移至0.6.0,請仔細核對每個版本的遷移指南; 0.6.0版本從基於list ...

Wed Aug 26 17:09:00 CST 2020 0 785
Apache Hudi 0.7.0版本重磅發布

重點特性 1. Clustering 0.7.0版本中支持了對Hudi表數據進行Clustering(對數據按照數據特征進行聚簇,以便優化文件大小和數據布局),Clustering提供了更靈活地方式增加文件大小,有了Clustering特性,便可更快速地攝取數據,然后聚簇為更大的文件,實驗 ...

Mon Feb 01 06:14:00 CST 2021 0 752
Apache Hudi重磅特性解讀之全局索引

1. 摘要 Hudi表允許多種類型操作,包括非常常用的upsert,當然為支持upsert,Hudi依賴索引機制來定位記錄在哪些文件中。 當前,Hudi支持分區和非分區的數據集。分區數據集是將一組文件(數據)放在稱為分區的桶中的數據集。一個Hudi數據集可能由N個分區和M個文件組成,這種組織 ...

Tue Jul 07 02:42:00 CST 2020 0 1467
Apache Hudi 0.8.0版本重磅發布

1. 重點特性 1.1 Flink集成 自從Hudi 0.7.0版本支持Flink寫入后,Hudi社區又進一步完善了FlinkHudi的集成。包括重新設計性能更好、擴展性更好、基於Flink狀態索引的寫入Pipeline;支持Flink寫入MOR表;Flink批量讀取COW和MOR表;流式 ...

Wed Apr 14 03:01:00 CST 2021 0 413
Apache Hudi重磅特性解讀之存量表高效遷移機制

1. 摘要 隨着Apache Hudi變得越來越流行,一個挑戰就是用戶如何將存量的歷史表遷移到Apache HudiApache Hudi維護了記錄級別的元數據以便提供upserts和增量拉取的核心能力。為利用Hudi的upsert和增量拉取能力,用戶需要重寫整個數據集讓其成為Hudi表 ...

Mon Jul 13 17:16:00 CST 2020 0 1434
基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM