原文:基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢 本次分享主要包括以下核心内容: 数据湖的相关背景介绍 经典业务场景介绍 为什么选择 Apache Iceberg 如何通过 Flink Iceberg 实现流式入湖 社区未来规划工作。 数据湖的相关背景介绍 数据湖是个 ...

2021-06-30 16:17 0 339 推荐指数:

查看详情

数据YYDS! Flink+IceBerg实时数据实践

数据的前世今生 互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展,无论是实时计算还是离线计算、无论是数据仓库还是数据中台,都已经深入各大公司的各个业务。 "数据"这个概念 ...

Wed Dec 08 05:02:00 CST 2021 0 937
Flink 如何实时分析 Iceberg 数据的 CDC 数据

简介: 数据的架构中,CDC 数据实时读写的方案和原理 本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理。主要介绍在数据的架构中,CDC 数据实时读写的方案和原理。文章主要分为 4 个部分内容: 常见的 CDC 分析方案 为何选择 Flink + Iceberg ...

Fri Feb 26 17:29:00 CST 2021 0 529
Apache Hudi 在 B 站构建实时数据的实践

​简介: B 站选择 Flink + Hudi 的数据技术方案,以及针对其做出的优化。 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据技术方案,以及针对其做出的优化。主要内容为: 传统离线数仓痛点 数据技术方案 Hudi 任务稳定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
网易:Flink + Iceberg 数据探索与实践

导读:今天主要和大家交流的是网易在数据 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据 Iceberg 的探索以及实践之路。 主要内容包括: 数据仓库平台建设的痛点 数据 Iceberg 的核心原理 数据 Iceberg ...

Wed Oct 28 18:28:00 CST 2020 0 679
数据| Iceberg

1. Iceberg构建数据 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化 ...

Mon Sep 27 05:36:00 CST 2021 0 315
数据 Iceberg

目录 数据(datalake) 对象存储 Iceberg 功能 Schema 变更 隐式分区和分区布局变更 查询特定版本和版本回滚 Iceberg in Spark 表格式说明 数据(datalake) 传统数据 ...

Wed Jan 26 07:54:00 CST 2022 0 1106
构建企业级数据?Azure Data Lake Storage Gen2实战体验(上)

背景 相较传统的重量级OLAP数据仓库,“数据”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 数据的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择。在之前的文章中 ...

Sun Aug 18 19:09:00 CST 2019 0 704
构建企业级数据?Azure Data Lake Storage Gen2实战体验(下)

相较传统的重量级OLAP数据仓库,“数据”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 作为微软Azure上最新一代的数据服务,Data Lake Storage Gen2的发布,将云上数据的能力和体验 ...

Mon Nov 04 06:12:00 CST 2019 0 415
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM