原文:使用Apache Pulsar + Hudi構建Lakehouse方案了解下?

. 動機 Lakehouse最早由Databricks公司提出,其可作為低成本 直接訪問雲存儲並提供傳統DBMS管系統性能和ACID事務 版本 審計 索引 緩存 查詢優化的數據管理系統,Lakehouse結合數據湖和數據倉庫的優點:包括數據湖的低成本存儲和開放數據格式訪問,數據倉庫強大的管理和優化能力。Delta Lake,Apache Hudi和Apache Iceberg是三種構建Lakeh ...

2021-05-30 10:57 0 306 推薦指數:

查看詳情

查詢性能提升3倍!Apache Hudi 查詢優化了解下

Hudi 0.10.0版本開始,我們很高興推出在數據庫領域中稱為 Z-Order 和 Hilbert 空間填充曲線的高級數據布局優化技術的支持。 1. 背景 Amazon EMR 團隊最近發表了一篇很不錯的文章展示了對數據進行聚簇是如何提高查詢性能的,為了更好地了解發生了什么以及它與空間 ...

Mon Mar 07 01:19:00 CST 2022 0 924
使用Apache Spark和Apache Hudi構建分析數據湖

1. 引入 大多數現代數據湖都是基於某種分布式文件系統(DFS),如HDFS或基於雲的存儲,如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用,如數百GB到TB的數據。 但是在構建分析數據湖時,更新數據並不罕見。根據不同場景,這些更新頻率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
Apache Hudi使用簡介

Apache Hudi使用簡介 目錄 Apache Hudi使用簡介 數據實時處理和實時的數據 業務場景和技術選型 Apache hudi簡介 使用Aapche Hudi整體思路 Hudi表數據結構 數據文件 ...

Mon Dec 28 03:47:00 CST 2020 0 1482
Apache Hudi使用問題匯總(一)

1.如何寫入Hudi數據集 通常,你會從源獲取部分更新/插入,然后對Hudi數據集執行寫入操作。如果從其他標准來源(如Kafka或tailf DFS)中提取數據,那么DeltaStreamer將會非常有用,其提供了一種簡單的自我管理解決方案,可將數據寫入Hudi。你還可以自己編寫代碼,使用 ...

Thu Jan 16 23:38:00 CST 2020 0 1591
使用Apache Hudi構建大規模、事務性數據湖

一個近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 關於Nishith Agarwal更詳細的介紹,主要從事數據方面的工作,包括攝取標准化,數據湖原語等。 什么是數據湖?數據湖是一個集中式 ...

Sun Jun 28 05:30:00 CST 2020 0 1422
Uber基於Apache Hudi構建PB級數據湖實踐

1. 引言 從確保准確預計到達時間到預測最佳交通路線,在Uber平台上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年,Uber開發了增量處理框架Apache Hudi,以低延遲和高效率為關鍵業務數據管道賦能。一年后,我們開源了該解決方案,以使得其他有需要的組織 ...

Thu Jun 11 17:29:00 CST 2020 0 943
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM