這里再總結一下,使用 Hudi 來做 DW 數據加載的前置存儲給我們帶來的諸多的好處:首先,它可以支持准實時的插入、修改和刪除,對保護用戶數據隱私來說是非常關鍵的(例如 GDPR );它還可以控制小文件,減少對 HDFS 的壓力;第二,Hudi 提供了多種訪問視圖,可以根據需要去選擇不同的視圖;第三,Hudi 是基於開放生態的,存儲格式使用 Parquet 和 Avro,目前主要是使用 Spark 來做數據操作,未來也可以擴展;支持多種查詢引擎,所以在生態友好性上來說,Hudi 是遠遠優於另外幾個競品的。