大數據架構痛點| 數據湖的解決方案


數據湖如何助力企業大數據中台架構的升級

1.大數據平台架構

數據處理的流程:

  采集-->清洗-->存儲
    -->
  計算-->分析-->應用

HDFS架構

 

MapReduce的核心思想

 

 Hive的架構

 

 大數據平台整體架構

 

 

2.從數據庫到數據倉庫的演進過程

離線數據倉庫

 

 實時數據倉庫

 

 數據倉庫特點

  • 集成性;
  • 主題性;
  • 穩定性;
  • 時效性;

數倉缺點:

  • 沒有存儲非結構化的數據
  • 沒有保留原始的數據

結構化

非結構化(代碼、日志、ppt、圖片、音頻、視頻)

半結構化

數據湖的理念

  • 能夠存儲海量的原始數據,
  • 能夠支持任意的數據格式,
  • 有較好的分析和處理能力

 


LakeHouse理念

Lakehouse = Data Lake + Data Warehouse

•開放性 使用的存儲格式是開放式和標准化的(如parquet),並且為各類工具和引擎,包括機器學習和 Python/R庫,提供API,以便它們可以直接有效地訪問數據

•支持從非結構化數據到結構化數據的多種數據類型

•BI支持 Lakehouse可以直接在源數據上使用BI工具

•支持多種工作負載 包括數據科學、機器學習以及SQL和分析

•Schema enforcement and governance(模式實施和治理) 未來能更好的管理元數據,schema管理和治理,不讓數據湖變成沼澤地

•事務支持

企業內部許多數據管道通常會並發讀寫數據。對ACID事務的支持確保了多方並發讀寫數據時的一致性問題

•端到端流 為了構建Lakehouse,需要一個增量數據處理框架,例如Apache Hudi。

 

 

3.數據湖和數據倉庫理念上的對比

 

 

 

 

數倉開發流程

 

 

數據湖落地方案

 

 

4.數據湖助力於數倉解決痛點問題

離線數倉的痛點

 

 實時數倉的痛點

 

 Lambda架構痛點

 

 實時數倉的演進

 

 

5.數據湖幫助企業大數據中台升級

 

  • 底層存儲標准統一化
  • 構建實時化標准層,去T+1,保證時效性
  • 數據存儲更安全,更全面,可回溯性更便捷,運維成本更低

目前數倉的架構設計

 

大數據中台架構升級

數據在湖,模型在倉(折中方案)

 

 

實時數據建設要求

  實時化需求

  小時/ 天級別 ==>  分鍾/ 秒級別

=>

  • 高效的Upsert操作;
  • 高效的回溯能力;
  • 支持Schema變更;
  • 支持ACID語義;
  • 支持Flink寫操作;
  • 支持小文件壓縮合並;

開源數據湖架構

6. 三個開源數據湖技術框架的比較

Apache hudi

di ingests & manages storage of large analytical datasets over DFS (hdfs or cloud stores). Hudi brings stream processing to big data, providing fresh data while being an order of magnitude efficient over

traditional batch processing.

ICEBERG 

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Trino and Spark that use a high-performance format that works just like a SQL tab

DELTA LAKE

Delta Lake is an open-source project that enables building a Lakehouse architecture on top of existing storage systems such as S3, ADLS, GCS, and HDF

Delta、Hudi、Iceberg對比

Delta天然支持spark, 綁定了spark;

Delta功能不完善

Hudi功能比較完善

不再跟spark強綁定, 但對spark的支持性很好;

對flink支持的不太完善;


Iceberg比較靈活

不綁定引擎, spark/flink都可以

功能沒Hudi完善

curd沒Hudi好,大量小文件的處理不是特別好;

三個開源產品國內現狀

 

 Hudi在業界的使用

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM