原文:Delta Lake在Soul的應用實踐

簡介: 傳統離線數倉模式下,日志入庫前首要階段便是ETL,我們面臨如下問題:天級ETL任務耗時久,影響下游依賴的產出時間 凌晨占用資源龐大,任務高峰期搶占大量集群資源 ETL任務穩定性不佳且出錯需凌晨解決 影響范圍大。為了解決天級ETL逐漸尖銳的問題,所以這次我們選擇了近來逐漸進入大家視野的數據湖架構,基於阿里雲EMR的Delta Lake,我們進一步打造優化實時數倉結構,提升部分業務指標實時性 ...

2021-03-02 11:01 0 265 推薦指數:

查看詳情

Delta Lake

Delta Lake 目錄 Delta Lake 重點問題 什么是 Delta Lake Delta Lake 基本功能 使用Delta Lake構建分析管道 Delta Lake 高級功能 QA ...

Sat Aug 29 07:29:00 CST 2020 0 742
Delta Lake源碼分析

目錄 Delta Lake源碼分析 Delta Lake元數據 snapshot生成 日志提交 沖突檢測(並發控制) delete update merge Delta Lake源碼分析 ...

Fri Dec 27 23:35:00 CST 2019 0 835
Kudu、Hudi和Delta Lake的比較

目錄 Kudu、Hudi和Delta Lake的比較 存儲機制 讀數據 更新數據 其他 如何選擇合適的存儲方案 Kudu、Hudi和Delta Lake的比較 kudu、hudi和delta lake ...

Mon Jan 06 03:58:00 CST 2020 0 6639
Delta Lake基礎操作和原理

目錄 Delta Lake 特性 maven依賴 使用aws s3文件系統快速啟動 基礎表操作 merge操作 delta lake更改現有數據的具體過程 delta表schema 事務日志 ...

Thu Dec 26 22:18:00 CST 2019 0 2808
Delta Lake基礎操作和原理

Delta Lake 特性 支持ACID事務 可擴展的元數據處理 統一的流、批處理API接口 更新、刪除數據,實時讀寫(讀是讀當前的最新快照) 數據版本控制,根據需要查看歷史數據快照,可回滾數據 自動處理schema變化,可修改表結構 maven依賴 ...

Tue Apr 21 18:13:00 CST 2020 0 2003
【詳談 Delta Lake 】系列技術專題 之 Streaming(流式計算)

​簡介: 本文翻譯自大數據技術公司 Databricks 針對數據湖 Delta Lake 的系列技術文章。眾所周知,Databricks 主導着開源大數據社區 Apache Spark、Delta Lake 以及 ML Flow 等眾多熱門技術,而 Delta Lake 作為數據湖核心存儲引擎 ...

Wed Jul 07 01:16:00 CST 2021 0 170
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM