来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据湖 我们使用 ...
本文是字节跳动数据平台开发套件团队在 Flink Forward Asia : Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。 文 Gary Li 字节跳动数据平台开发套件团队高级研发工程师,数据湖开源项目 Apache Hudi PMC Member 随着 Flink 社区的不断发展,越来越多的公司将 Flink 作为首选的大数据计算引擎。字节跳动 ...
2022-01-24 14:49 0 1284 推荐指数:
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据湖 我们使用 ...
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践。 字节跳动数据流的业务背景 数据流处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务 ...
前言 本文具体探讨 MySQL 数据实时同步到 Elasticsearch (以下简称 ES ) 技术方案和思考,同时使用一定篇幅介绍一些前置知识,从理论到实践,让读者更好的理解这块内容和相关问题。包括 ...
目录 一、技术选型概述 二、确定Spring家族依赖的版本号 1.springcloud 2.spring cloud alibaba 3.springboot 三、确定数据库信息 1.MySQL相关 1.1 官网推荐,兼容性好 1.2 Maven使用频率较高 ...
[摘要]数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据,具有改造和分析数据处理能力。来自不同来源的详细原始的数据被加载到一个综合信息库,可以看到提供给用户分析的任何数据。主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换 ...
数据湖(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化 ...
https://mp.weixin.qq.com/s/wSaJYg-HqnYY4SdLA2Zzaw RPC 框架作为研发体系中重要的一环,承载了几乎所有的服务流量。本文将简单介绍字节跳动自研网络库 netpoll 的设计及实践;以及我们实际遇到的问题和解决思路,希望能为大家提供一些 ...
用过哪些设计模式? 算法题:滑动窗口 字节跳动技术二面(我发现字节的面试官都挺年轻的,头发也没怎么 ...