來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據湖 我們使用 ...
簡介:B 站選擇 Flink Hudi 的數據湖技術方案,以及針對其做出的優化。 本文作者喻兆靖,介紹了為什么 B 站選擇 Flink Hudi 的數據湖技術方案,以及針對其做出的優化。主要內容為: 傳統離線數倉痛點 數據湖技術方案 Hudi 任務穩定性保障 數據入湖實踐 增量數據湖平台收益 社區貢獻 未來的發展與思考 一 傳統離線數倉痛點 . 痛點 之前 B 站數倉的入倉流程大致如下所示: 在 ...
2021-09-10 11:19 0 112 推薦指數:
來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據湖 我們使用 ...
1. 引言 從確保准確預計到達時間到預測最佳交通路線,在Uber平台上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年,Uber開發了增量處理框架Apache Hudi,以低延遲和高效率為關鍵業務數據管道賦能。一年后,我們開源了該解決方案,以使得其他有需要的組織 ...
簡介: 本文介紹了百信銀行實時計算平台的建設情況,實時數據湖構建在 Hudi 上的方案和實踐方法,以及實時計算平台集成 Hudi 和使用 Hudi 的方式。 本文介紹了百信銀行實時計算平台的建設情況,實時數據湖構建在 Hudi 上的方案和實踐方法,以及實時計算平台集成 Hudi ...
Hudi特性 數據湖處理非結構化數據、日志數據、結構化數據 支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證 並具有回滾功能 savepoint 用戶數據 ...
1. 引入 大多數現代數據湖都是基於某種分布式文件系統(DFS),如HDFS或基於雲的存儲,如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用,如數百GB到TB的數據。 但是在構建分析數據湖時,更新數據並不罕見。根據不同場景,這些更新頻率 ...
本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...
1. 傳統數據湖存在的問題與挑戰 傳統數據湖解決方案中,常用Hive來構建T+1級別的數據倉庫,通過HDFS存儲實現海量數據的存儲與水平擴容,通過Hive實現元數據的管理以及數據操作的SQL化。雖然能夠在海量批處理場景中取得不錯的效果,但依然存在如下現狀問題: 問題一:不支持事務 由於傳統 ...
作者 | 蔡芳芳 采訪嘉賓 | 馬進 網易數帆平台開發專家 數據中台也要從離線為主走向實時化,湖倉一體是第一步。 數據從離線到實時是當前一個很大的趨勢,但要建設實時數據、應用實時數據還面臨兩個難題。首先是實時和離線的技術棧不統一,導致系統和研發重復投入,在這之上 ...