原文:基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為 個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink Hudi的應用實踐 后續應用規划及展望 . 實時數據落地需求演進 實時平台上線后,主要需求是開發實時報表,即抽取各類數據源做實時etl后,吐出實時指標到oracle庫中供展示查詢。 隨着實時平台的穩定及推廣開放,各種 ...

2022-01-09 06:10 0 746 推薦指數:

查看詳情

Uber基於Apache Hudi構建PB級數據實踐

1. 引言 從確保准確預計到達時間到預測最佳交通路線,在Uber平台上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年,Uber開發了增量處理框架Apache Hudi,以低延遲和高效率為關鍵業務數據管道賦能。一年后,我們開源了該解決方案,以使得其他有需要的組織 ...

Thu Jun 11 17:29:00 CST 2020 0 943
字節跳動基於Apache Hudi構建EB級數據實踐

來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據 我們使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
基於Apache Hudi 的CDC數據

作者:李少鋒 文章目錄: 一、CDC背景介紹 二、CDC數據 三、Hudi核心設計 四、Hudi未來規划 1. CDC背景介紹 首先我們介紹什么是CDC?CDC的全稱是Change data Capture,即變更數據捕獲,它是數據庫領域非常常見的技術,主要用於捕獲數據庫的一些 ...

Mon Oct 25 04:15:00 CST 2021 0 1292
數據-Apache Hudi

Hudi特性 數據處理非結構化數據、日志數據、結構化數據 支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證 並具有回滾功能 savepoint 用戶數據 ...

Sat Jan 30 21:12:00 CST 2021 0 443
Apache Hudi 在 B 站構建實時數據實踐

​簡介: B 站選擇 Flink + Hudi數據技術方案,以及針對其做出的優化。 本文作者喻兆靖,介紹了為什么 B 站選擇 Flink + Hudi數據技術方案,以及針對其做出的優化。主要內容為: 傳統離線數倉痛點 數據技術方案 Hudi 任務穩定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
基於 Flink CDC + Hudi 倉一體方案實踐

一、Flink-CDC 2.0 Flink CDC Connectors 是 Apache Flink 的一個 source 端的連接器,目前 2.0 版本支持從 MySQL 以及 Postgres 兩種數據源中獲取數據,2.1 版本社區確定會支持 Oracle,MongoDB 數據 ...

Tue Nov 16 23:43:00 CST 2021 0 828
Hudi自帶工具DeltaStreamer的實時最佳實踐

摘要:本文介紹如何使用Hudi自帶入工具DeltaStreamer進行數據的實時。 本文分享自華為雲社區《華為FusionInsight MRS實戰 - Hudi實時之DeltaStreamer工具最佳實踐》,作者: 晉紅輕 。 背景 傳統大數據平台的組織架構是針對離線 ...

Mon Aug 02 21:09:00 CST 2021 0 183
使用Apache Spark和Apache Hudi構建分析數據

1. 引入 大多數現代數據都是基於某種分布式文件系統(DFS),如HDFS或基於雲的存儲,如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用,如數百GB到TB的數據。 但是在構建分析數據時,更新數據並不罕見。根據不同場景,這些更新頻率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM