數據湖的前世今生 互聯網技術發展的當下,數據是各大公司最寶貴的資源之一已經是不爭的事實。收據的收集、存儲和分析已經成為科技公司最重要的技術組成部分。大數據領域經過近十年的高速發展,無論是實時計算還是離線計算、無論是數據倉庫還是數據中台,都已經深入各大公司的各個業務。 "數據湖"這個概念 ...
導讀:今天主要和大家交流的是網易在數據湖 Iceberg 的一些思考與實踐。從網易在數據倉庫建設中遇到的痛點出發,介紹對數據湖 Iceberg 的探索以及實踐之路。 主要內容包括: 數據倉庫平台建設的痛點 數據湖 Iceberg 的核心原理 數據湖 Iceberg 社區現狀 網易數據湖 Iceberg 實踐之路 數據倉庫平台建設的痛點 痛點一: 我們凌晨一些大的離線任務經常會因為一些原因出現延遲 ...
2020-10-28 10:28 0 679 推薦指數:
數據湖的前世今生 互聯網技術發展的當下,數據是各大公司最寶貴的資源之一已經是不爭的事實。收據的收集、存儲和分析已經成為科技公司最重要的技術組成部分。大數據領域經過近十年的高速發展,無論是實時計算還是離線計算、無論是數據倉庫還是數據中台,都已經深入各大公司的各個業務。 "數據湖"這個概念 ...
作者 | 蔡芳芳 采訪嘉賓 | 馬進 網易數帆平台開發專家 數據中台也要從離線為主走向實時化,湖倉一體是第一步。 數據從離線到實時是當前一個很大的趨勢,但要建設實時數據、應用實時數據還面臨兩個難題。首先是實時和離線的技術棧不統一,導致系統和研發重復投入,在這之上 ...
簡介: 由汽車之家實時計算平台負責人邸星星在 4 月 17 日上海站 Meetup 分享的,基於 Flink + Iceberg 的湖倉一體架構實踐。 內容簡要: 一、數據倉庫架構升級的背景 二、基於 Iceberg 的湖倉一體架構實踐 三、總結與收益 ...
簡介: 數據湖的架構中,CDC 數據實時讀寫的方案和原理 本文由李勁松、胡爭分享,社區志願者楊偉海、李培殿整理。主要介紹在數據湖的架構中,CDC 數據實時讀寫的方案和原理。文章主要分為 4 個部分內容: 常見的 CDC 分析方案 為何選擇 Flink + Iceberg ...
1. Iceberg構建數據湖 核心思想 在時間軸上跟蹤表的所有變化; 快照表示表數據文件的一個完整集合; 每次更新操作會生成一個新的快照; 特性 ① 優化數據入庫流程 Iceberg提供ACID事務能力,上游數據寫入即可見,不影響當前數據處理任務,這大大簡化 ...
目錄 數據湖(datalake) 對象存儲 Iceberg 功能 Schema 變更 隱式分區和分區布局變更 查詢特定版本和版本回滾 Iceberg in Spark 表格式說明 數據湖(datalake) 傳統數據 ...
Apache Flink 是大數據領域非常流行的流批統一的計算引擎,數據湖是順應雲時代發展潮流的新型技術架構。那么當 Apache Flink 遇見數據湖時,會碰撞出什么樣的火花呢?本次分享主要包括以下核心內容: 數據湖的相關背景介紹; 經典業務場景介紹; 為什么選擇 Apache ...
本次分享分為5個部分介紹Apache Hudi的應用與實踐 實時數據落地需求演進 基於Spark+Hudi的實時數據落地應用實踐 基於Flink自定義實時數據落地實踐 基於Flink+Hudi的應用實踐 后續應用規划及展望 1. 實時數據落地需求演進 實時平台 ...