原文:對話Apache Hudi VP, 洞悉數據湖的過去現在和未來

Apache Hudi是一個開源數據湖管理平台,用於簡化增量數據處理和數據管道開發,該平台可以有效地管理業務需求,例如數據生命周期,並提高數據質量。Hudi的一些常見用例是記錄級的插入 更新和刪除 簡化文件管理和近乎實時的數據訪問以及簡化的CDC數據管道開發。 本期SOFTWARE DAILY我們有幸采訪到了Apache Hudi項目VP Vinoth Chandar。Vinoth是Uber Hu ...

2021-06-16 23:40 0 270 推薦指數:

查看詳情

數據-Apache Hudi

Hudi特性 數據處理非結構化數據、日志數據、結構化數據 支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證 並具有回滾功能 savepoint 用戶數據 ...

Sat Jan 30 21:12:00 CST 2021 0 443
基於Apache Hudi 的CDC數據

作者:李少鋒 文章目錄: 一、CDC背景介紹 二、CDC數據 三、Hudi核心設計 四、Hudi未來規划 1. CDC背景介紹 首先我們介紹什么是CDC?CDC的全稱是Change data Capture,即變更數據捕獲,它是數據庫領域非常常見的技術,主要用於捕獲數據庫的一些 ...

Mon Oct 25 04:15:00 CST 2021 0 1292
我的過去現在未來

  如果有一台時間機器,我想乘着它回到過去。   我叫周欣,在本地的縣里讀完了小學、初中還有高中。一切有關於我的過往經歷都可以在這十多億人口中找到影子。平平凡凡的長大、上學,完完全全的正常人的成長軌跡。但這其中也有一些精彩的瞬間,或是讓人激動,或是讓人懊悔。如同高三的時候,或許是叛逆期到了,同父 ...

Sat Sep 29 05:31:00 CST 2018 6 437
過去現在未來

我叫 EI,這原本是 EntropyIncreaser 的簡稱,后來也可以叫我 Elegia。 我原本維護一個 csdn 博客,但是現在看來 csdn 的吃相實在是越來越難看,不知道幾年前選擇博客的時候為何棄明投暗。 作為一篇隨筆,只有幾句話似乎也不太好。於是就有了下面的內容: 問題解決 ...

Sat Jan 01 01:09:00 CST 2022 1 4635
使用Apache Spark和Apache Hudi構建分析數據

1. 引入 大多數現代數據都是基於某種分布式文件系統(DFS),如HDFS或基於雲的存儲,如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用,如數百GB到TB的數據。 但是在構建分析數據時,更新數據並不罕見。根據不同場景,這些更新頻率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
基於Apache Hudi + Flink的億級數據實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
數據| Hudi

1. Hudi核心概念 Hudi核心組件結構 通過Hudi客戶端把數據寫入Hudi, 寫入的時候有兩種方式: COW(copy on write)寫時復制-java中的讀寫分離 MOR(merge on read)讀時合並 (讀數據的時候先合並,寫數據時寫到par文件中 ...

Mon Sep 27 05:36:00 CST 2021 0 165
字節跳動基於Apache Hudi構建EB級數據實踐

來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據 我們使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM