原文:基於 Flink+Iceberg 構建企業級實時數據湖

Apache Flink 是大數據領域非常流行的流批統一的計算引擎,數據湖是順應雲時代發展潮流的新型技術架構。那么當 Apache Flink 遇見數據湖時,會碰撞出什么樣的火花呢 本次分享主要包括以下核心內容: 數據湖的相關背景介紹 經典業務場景介紹 為什么選擇 Apache Iceberg 如何通過 Flink Iceberg 實現流式入湖 社區未來規划工作。 數據湖的相關背景介紹 數據湖是個 ...

2021-06-30 16:17 0 339 推薦指數:

查看詳情

數據YYDS! Flink+IceBerg實時數據實踐

數據的前世今生 互聯網技術發展的當下,數據是各大公司最寶貴的資源之一已經是不爭的事實。收據的收集、存儲和分析已經成為科技公司最重要的技術組成部分。大數據領域經過近十年的高速發展,無論是實時計算還是離線計算、無論是數據倉庫還是數據中台,都已經深入各大公司的各個業務。 "數據"這個概念 ...

Wed Dec 08 05:02:00 CST 2021 0 937
Flink 如何實時分析 Iceberg 數據的 CDC 數據

簡介: 數據的架構中,CDC 數據實時讀寫的方案和原理 本文由李勁松、胡爭分享,社區志願者楊偉海、李培殿整理。主要介紹在數據的架構中,CDC 數據實時讀寫的方案和原理。文章主要分為 4 個部分內容: 常見的 CDC 分析方案 為何選擇 Flink + Iceberg ...

Fri Feb 26 17:29:00 CST 2021 0 529
Apache Hudi 在 B 站構建實時數據的實踐

​簡介: B 站選擇 Flink + Hudi 的數據技術方案,以及針對其做出的優化。 本文作者喻兆靖,介紹了為什么 B 站選擇 Flink + Hudi 的數據技術方案,以及針對其做出的優化。主要內容為: 傳統離線數倉痛點 數據技術方案 Hudi 任務穩定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
網易:Flink + Iceberg 數據探索與實踐

導讀:今天主要和大家交流的是網易在數據 Iceberg 的一些思考與實踐。從網易在數據倉庫建設中遇到的痛點出發,介紹對數據 Iceberg 的探索以及實踐之路。 主要內容包括: 數據倉庫平台建設的痛點 數據 Iceberg 的核心原理 數據 Iceberg ...

Wed Oct 28 18:28:00 CST 2020 0 679
數據| Iceberg

1. Iceberg構建數據 核心思想 在時間軸上跟蹤表的所有變化; 快照表示表數據文件的一個完整集合; 每次更新操作會生成一個新的快照; 特性 ① 優化數據入庫流程 Iceberg提供ACID事務能力,上游數據寫入即可見,不影響當前數據處理任務,這大大簡化 ...

Mon Sep 27 05:36:00 CST 2021 0 315
數據 Iceberg

目錄 數據(datalake) 對象存儲 Iceberg 功能 Schema 變更 隱式分區和分區布局變更 查詢特定版本和版本回滾 Iceberg in Spark 表格式說明 數據(datalake) 傳統數據 ...

Wed Jan 26 07:54:00 CST 2022 0 1106
構建企業級數據?Azure Data Lake Storage Gen2實戰體驗(上)

背景 相較傳統的重量級OLAP數據倉庫,“數據”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點,受到越來越多企業的青睞,逐漸成為了現代數據平台的核心和架構范式。 數據的核心功能,簡單地可以分為數據存儲與數據查詢計算兩個部分,在雲端可以有多種的實現選擇。在之前的文章中 ...

Sun Aug 18 19:09:00 CST 2019 0 704
構建企業級數據?Azure Data Lake Storage Gen2實戰體驗(下)

相較傳統的重量級OLAP數據倉庫,“數據”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點,受到越來越多企業的青睞,逐漸成為了現代數據平台的核心和架構范式。 作為微軟Azure上最新一代的數據服務,Data Lake Storage Gen2的發布,將雲上數據的能力和體驗 ...

Mon Nov 04 06:12:00 CST 2019 0 415
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM