【文章推薦】通過Apache Hudi和Alluxio建設高性能數據湖

原文：通過Apache Hudi和Alluxio建設高性能數據湖

T 出行的楊華和張永旭描述了他們數據湖架構的發展。該架構使用了眾多開源技術，包括Apache Hudi和Alluxio。在本文中，您將看到我們如何使用Hudi和Alluxio將數據攝取時間縮短一半。此外，數據分析人員如何使用Presto Hudi和Alluxio讓查詢速度提高了倍。我們基於數據編排為數據管道的多個階段包括提取和分析構建了數據湖。 .T 出行數據湖總覽 T 出行當前還處於業務擴 ...

2020-12-06 21:14 0 926 推薦指數：

查看詳情

數據湖-Apache Hudi

Hudi特性數據湖處理非結構化數據、日志數據、結構化數據支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證並具有回滾功能 savepoint 用戶數據 ...

基於Apache Hudi 的CDC數據入湖

作者：李少鋒文章目錄：一、CDC背景介紹二、CDC數據入湖三、Hudi核心設計四、Hudi未來規划 1. CDC背景介紹首先我們介紹什么是CDC？CDC的全稱是Change data Capture，即變更數據捕獲，它是數據庫領域非常常見的技術，主要用於捕獲數據庫的一些 ...

使用Apache Spark和Apache Hudi構建分析數據湖

1. 引入大多數現代數據湖都是基於某種分布式文件系統（DFS），如HDFS或基於雲的存儲，如AWS S3構建的。遵循的基本原則之一是文件的“一次寫入多次讀取”訪問模型。這對於處理海量數據非常有用，如數百GB到TB的數據。但是在構建分析數據湖時，更新數據並不罕見。根據不同場景，這些更新頻率 ...

基於Apache Hudi + Flink的億級數據入湖實踐

本次分享分為5個部分介紹Apache Hudi的應用與實踐實時數據落地需求演進基於Spark+Hudi的實時數據落地應用實踐基於Flink自定義實時數據落地實踐基於Flink+Hudi的應用實踐后續應用規划及展望 1. 實時數據落地需求演進實時平台 ...

數據湖| Hudi

1. Hudi核心概念 Hudi核心組件結構通過Hudi客戶端把數據寫入Hudi, 寫入的時候有兩種方式: COW(copy on write)寫時復制-java中的讀寫分離 MOR(merge on read)讀時合並 (讀數據的時候先合並,寫數據時寫到par文件中 ...

字節跳動基於Apache Hudi構建EB級數據湖實踐

來自字節跳動的管梓越同學一篇關於Apache Hudi在字節跳動推薦系統中EB級數據量實踐的分享。接下來將分為場景需求、設計選型、功能支持、性能調優、未來展望五部分介紹Hudi在字節跳動推薦系統中的實踐。在推薦系統中，我們在兩個場景下使用數據湖我們使用 ...

基於Apache Hudi構建數據湖的典型應用場景介紹

1. 傳統數據湖存在的問題與挑戰傳統數據湖解決方案中，常用Hive來構建T+1級別的數據倉庫，通過HDFS存儲實現海量數據的存儲與水平擴容，通過Hive實現元數據的管理以及數據操作的SQL化。雖然能夠在海量批處理場景中取得不錯的效果，但依然存在如下現狀問題：問題一：不支持事務由於傳統 ...

Apache Hudi 在 B 站構建實時數據湖的實踐

簡介： B 站選擇 Flink + Hudi 的數據湖技術方案，以及針對其做出的優化。本文作者喻兆靖，介紹了為什么 B 站選擇 Flink + Hudi 的數據湖技術方案，以及針對其做出的優化。主要內容為：傳統離線數倉痛點數據湖技術方案 Hudi 任務穩定性 ...

原文：通過Apache Hudi和Alluxio建設高性能數據湖

相關推薦

相關標簽