來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據湖 我們使用 ...
本文是字節跳動數據平台開發套件團隊在 Flink Forward Asia : Flink Forward 峰會上的演講,着重分享了字節跳動數據湖技術上的選型思考和探索實踐。 文 Gary Li 字節跳動數據平台開發套件團隊高級研發工程師,數據湖開源項目 Apache Hudi PMC Member 隨着 Flink 社區的不斷發展,越來越多的公司將 Flink 作為首選的大數據計算引擎。字節跳動 ...
2022-01-24 14:49 0 1284 推薦指數:
來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。 接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。 在推薦系統中,我們在兩個場景下使用數據湖 我們使用 ...
本文是字節跳動數據平台開發套件團隊在1月9日Flink Forward Asia 2021: Flink Forward 峰會上的演講分享,將着重分享Flink在字節跳動數據流的實踐。 字節跳動數據流的業務背景 數據流處理的主要是埋點日志。埋點,也叫Event Tracking,是數據和業務 ...
前言 本文具體探討 MySQL 數據實時同步到 Elasticsearch (以下簡稱 ES ) 技術方案和思考,同時使用一定篇幅介紹一些前置知識,從理論到實踐,讓讀者更好的理解這塊內容和相關問題。包括 ...
目錄 一、技術選型概述 二、確定Spring家族依賴的版本號 1.springcloud 2.spring cloud alibaba 3.springboot 三、確定數據庫信息 1.MySQL相關 1.1 官網推薦,兼容性好 1.2 Maven使用頻率較高 ...
[摘要]數據湖是一個集中式存儲庫,允許以任意規模存儲所有結構化和非結構化數據,具有改造和分析數據處理能力。來自不同來源的詳細原始的數據被加載到一個綜合信息庫,可以看到提供給用戶分析的任何數據。主要思想是對企業中的所有數據進行統一存儲,從原始數據轉換為用於報告、可視化、分析和機器學習等各種任務的轉換 ...
數據湖(Data Lake)是Pentaho公司創始人及CTO James Dixon於2010年10月在2010年10月紐約Hadoop World大會上提出來的一種數據存儲理念—即在系統或存儲庫中以自然格式存儲數據的方法。數據湖作為一個集中的存儲庫,可以在其中存儲任意規模的結構化 ...
https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作為研發體系中重要的一環,承載了幾乎所有的服務流量。本文將簡單介紹字節跳動自研網絡庫 netpoll 的設計及實踐;以及我們實際遇到的問題和解決思路,希望能為大家提供一些 ...
用過哪些設計模式? 算法題:滑動窗口 字節跳動技術二面(我發現字節的面試官都挺年輕的,頭發也沒怎么 ...