原文:Apache Hudi與Apache Flink集成

感謝王祥虎 wangxianghu 投稿 Apache Hudi是由Uber開發並開源的數據湖框架,它於 年 月進入Apache孵化器孵化,次年 月份順利畢業晉升為Apache頂級項目。是當前最為熱門的數據湖框架之一。 . 為何要解耦 Hudi自誕生至今一直使用Spark作為其數據處理引擎。如果用戶想使用Hudi作為其數據湖框架,就必須在其平台技術棧中引入Spark。放在幾年前,使用Spark作 ...

2020-10-13 09:53 0 3450 推薦指數:

查看詳情

Apache Hudi集成Apache Zeppelin實戰

1. 簡介 Apache Zeppelin 是一個提供交互數據分析且基於Web的筆記本。方便你做出可數據驅動的、可交互且可協作的精美文檔,並且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive ...

Tue Apr 28 17:17:00 CST 2020 0 1086
重磅!解鎖Apache Flink讀寫Apache Hudi新姿勢

感謝阿里雲 Blink 團隊Danny Chan的投稿及完善FlinkHudi集成工作。 1. 背景 Apache Hudi 是目前最流行的數據湖解決方案之一,Data Lake Analytics 集成Hudi 服務高效的數據 MERGE(UPDATE/DELETE)場景 ...

Sat Apr 10 20:18:00 CST 2021 0 2231
Apache Hudi集成Spark SQL搶先體驗

Apache Hudi集成Spark SQL搶先體驗 1. 摘要 社區小伙伴一直期待的Hudi整合Spark SQL的PR正在積極Review中並已經快接近尾聲,Hudi集成Spark SQL預計會在下個版本正式發布,在集成Spark SQL后,會極大方便用戶對Hudi表的DDL/DML操作 ...

Mon May 24 05:34:00 CST 2021 0 2434
Apache Hudi 與 Hive 集成手冊

1. Hudi表對應的Hive外部表介紹 Hudi源表對應一份HDFS數據,可以通過Spark,Flink 組件或者Hudi客戶端將Hudi表的數據映射為Hive外部表,基於該外部表, Hive可以方便的進行實時視圖,讀優化視圖以及增量視圖的查詢。 2. Hive對Hudi集成 ...

Mon Dec 13 06:28:00 CST 2021 1 4465
生態 | Apache Hudi集成Alluxio實踐

原文鏈接:https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio為數據驅動型應用和存儲系統構建了橋梁, 將數 ...

Tue Jul 21 04:51:00 CST 2020 0 870
基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
Apache Hudi使用簡介

Apache Hudi使用簡介 目錄 Apache Hudi使用簡介 數據實時處理和實時的數據 業務場景和技術選型 Apache hudi簡介 使用Aapche Hudi整體思路 Hudi表數據結構 數據文件 ...

Mon Dec 28 03:47:00 CST 2020 0 1482
Apache Hudi 介紹與應用

Apache Hudi Apache Hudi 在基於 HDFS/S3 數據存儲之上,提供了兩種流原語: 插入更新 增量拉取 一般來說,我們會將大量數據存儲到HDFS/S3,新數據增量寫入,而舊數據鮮有改動,特別是在經過數據清洗,放入數據倉庫的場景。而且在數據倉庫如 hive中 ...

Sat Nov 23 01:39:00 CST 2019 0 3897
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM