原文:字節跳動基於 Apache Hudi 的多流拼接實踐方案

字節跳動數據湖團隊在實時數倉構建寬表的業務場景中,探索實踐出的一種基於 Hudi Payload 的合並機制提出的全新解決方案。 字節跳動數據湖團隊在實時數倉構建寬表的業務場景中,探索實踐出的一種基於 Hudi Payload 的合並機制提出的全新解決方案。 該方案在存儲層提供對多流數據的關聯能力,旨在解決實時場景下多流 JOIN 遇到的一系列問題。接下來,本文會詳細介紹多流拼接方案的背景以及實 ...

2022-03-30 14:15 0 707 推薦指數:

查看詳情

字節跳動基於Apache Hudi構建EB級數據湖實踐

來自字節跳動的管梓越同學一篇關於Apache Hudi字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據湖 我們使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
深度介紹Flink在字節跳動數據實踐

本文是字節跳動數據平台開發套件團隊在1月9日Flink Forward Asia 2021: Flink Forward 峰會上的演講分享,將着重分享Flink在字節跳動數據實踐字節跳動數據的業務背景 數據處理的主要是埋點日志。埋點,也叫Event Tracking,是數據和業務 ...

Wed Jan 12 21:10:00 CST 2022 1 1787
觸寶科技基於Apache Hudi批一體架構實踐

1. 前言 當前公司的大數據實時鏈路如下圖,數據源是MySQL數據庫,然后通過Binlog Query的方式消費或者直接客戶端采集到Kafka,最終通過基於Spark/Flink實現的批一體計算引擎處理,最后輸出到下游對應的存儲。 2. 模型特征架構的演進 2.1 第一代架構 ...

Mon Jul 12 06:51:00 CST 2021 0 561
字節跳動在 Go 網絡庫上的實踐

https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作為研發體系中重要的一環,承載了幾乎所有的服務流量。本文將簡單介紹字節跳動自研網絡庫 netpoll 的設計及實踐;以及我們實際遇到的問題和解決思路,希望能為大家提供一些 ...

Wed May 20 06:00:00 CST 2020 0 594
生態 | Apache Hudi集成Alluxio實踐

接口連接到許多存儲系統。Alluxio內存至上的層次化架構使得數據的訪問速度能比現有方案快幾個數量級。 ...

Tue Jul 21 04:51:00 CST 2020 0 870
Uber基於Apache Hudi構建PB級數據湖實踐

1. 引言 從確保准確預計到達時間到預測最佳交通路線,在Uber平台上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年,Uber開發了增量處理框架Apache Hudi,以低延遲和高效率為關鍵業務數據管道賦能。一年后,我們開源了該解決方案,以使得其他有需要的組織 ...

Thu Jun 11 17:29:00 CST 2020 0 943
基於 Apache Hudi 構建增量和無限回放事件的 OLAP 平台

1. 摘要 在本博客中,我們將討論在構建數據平台時如何利用 Hudi 的兩個最令人難以置信的能力。 增量消費--每 30 分鍾處理一次數據,並在我們的組織內構建每小時級別的OLAP平台 事件的無限回放--利用 Hudi 的提交時間線在超級便宜的雲對象存儲(如 AWS S3)中存儲 ...

Tue Apr 12 01:40:00 CST 2022 0 615
基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM