原文:百信銀行基於 Apache Hudi 實時數據湖演進方案

簡介:本文介紹了百信銀行實時計算平台的建設情況,實時數據湖構建在 Hudi 上的方案和實踐方法,以及實時計算平台集成 Hudi 和使用 Hudi 的方式。 本文介紹了百信銀行實時計算平台的建設情況,實時數據湖構建在 Hudi 上的方案和實踐方法,以及實時計算平台集成 Hudi 和使用 Hudi 的方式。內容包括: 背景 百信銀行基於 Flink 的實時計算平台設計與實踐 百信銀行實時計算平台與實時 ...

2021-05-14 09:34 0 285 推薦指數:

查看詳情

Apache Hudi 在 B 站構建實時數據的實踐

​簡介: B 站選擇 Flink + Hudi數據技術方案,以及針對其做出的優化。 本文作者喻兆靖,介紹了為什么 B 站選擇 Flink + Hudi數據技術方案,以及針對其做出的優化。主要內容為: 傳統離線數倉痛點 數據技術方案 Hudi 任務穩定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
數據-Apache Hudi

Hudi特性 數據處理非結構化數據、日志數據、結構化數據 支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證 並具有回滾功能 savepoint 用戶數據 ...

Sat Jan 30 21:12:00 CST 2021 0 443
Apache Hudi:雲數據解決方案

1. 引入 開源Apache Hudi項目為Uber等大型組織提供流處理能力,每天可處理數據湖上的數十億條記錄。 隨着世界各地的組織采用該技術,Apache開源數據項目已經日漸成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals ...

Sun Jun 21 20:43:00 CST 2020 0 1096
基於Apache Hudi 的CDC數據

作者:李少鋒 文章目錄: 一、CDC背景介紹 二、CDC數據 三、Hudi核心設計 四、Hudi未來規划 1. CDC背景介紹 首先我們介紹什么是CDC?CDC的全稱是Change data Capture,即變更數據捕獲,它是數據庫領域非常常見的技術,主要用於捕獲數據庫的一些 ...

Mon Oct 25 04:15:00 CST 2021 0 1292
深度對比Apache CarbonData、Hudi和Open Delta三大開源數據方案

摘要:今天我們就來解構數據的核心需求,同時深度對比Apache CarbonData、Hudi和Open Delta三大解決方案,幫助用戶更好地針對自身場景來做數據方案選型。 背景 我們已經看到,人們更熱衷於高效可靠的解決方案,擁有為數據提供應對突變和事務處理的能力。在數據中 ...

Thu Oct 29 23:23:00 CST 2020 1 2065
使用Apache Spark和Apache Hudi構建分析數據

1. 引入 大多數現代數據都是基於某種分布式文件系統(DFS),如HDFS或基於雲的存儲,如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用,如數GB到TB的數據。 但是在構建分析數據時,更新數據並不罕見。根據不同場景,這些更新頻率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
基於Apache Hudi + Flink的億級數據實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
數據| Hudi

1. Hudi核心概念 Hudi核心組件結構 通過Hudi客戶端把數據寫入Hudi, 寫入的時候有兩種方式: COW(copy on write)寫時復制-java中的讀寫分離 MOR(merge on read)讀時合並 (讀數據的時候先合並,寫數據時寫到par文件中 ...

Mon Sep 27 05:36:00 CST 2021 0 165
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM