数据湖的前世今生 互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展,无论是实时计算还是离线计算、无论是数据仓库还是数据中台,都已经深入各大公司的各个业务。 "数据湖"这个概念 ...
导读:今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖 Iceberg 的探索以及实践之路。 主要内容包括: 数据仓库平台建设的痛点 数据湖 Iceberg 的核心原理 数据湖 Iceberg 社区现状 网易数据湖 Iceberg 实践之路 数据仓库平台建设的痛点 痛点一: 我们凌晨一些大的离线任务经常会因为一些原因出现延迟 ...
2020-10-28 10:28 0 679 推荐指数:
数据湖的前世今生 互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展,无论是实时计算还是离线计算、无论是数据仓库还是数据中台,都已经深入各大公司的各个业务。 "数据湖"这个概念 ...
作者 | 蔡芳芳 采访嘉宾 | 马进 网易数帆平台开发专家 数据中台也要从离线为主走向实时化,湖仓一体是第一步。 数据从离线到实时是当前一个很大的趋势,但要建设实时数据、应用实时数据还面临两个难题。首先是实时和离线的技术栈不统一,导致系统和研发重复投入,在这之上 ...
简介: 由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践。 内容简要: 一、数据仓库架构升级的背景 二、基于 Iceberg 的湖仓一体架构实践 三、总结与收益 ...
简介: 数据湖的架构中,CDC 数据实时读写的方案和原理 本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理。主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理。文章主要分为 4 个部分内容: 常见的 CDC 分析方案 为何选择 Flink + Iceberg ...
1. Iceberg构建数据湖 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化 ...
目录 数据湖(datalake) 对象存储 Iceberg 功能 Schema 变更 隐式分区和分区布局变更 查询特定版本和版本回滚 Iceberg in Spark 表格式说明 数据湖(datalake) 传统数据 ...
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次分享主要包括以下核心内容: 数据湖的相关背景介绍; 经典业务场景介绍; 为什么选择 Apache ...
本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台 ...