原文:數據湖技術及其應用

摘要 數據湖是一個集中式存儲庫,允許以任意規模存儲所有結構化和非結構化數據,具有改造和分析數據處理能力。來自不同來源的詳細原始的數據被加載到一個綜合信息庫,可以看到提供給用戶分析的任何數據。主要思想是對企業中的所有數據進行統一存儲,從原始數據轉換為用於報告 可視化 分析和機器學習等各種任務的轉換數據。數據倉庫是一個優化的數據庫,用於分析來自事務系統和業務線應用程序的關系數據。數據倉庫技術需要事先 ...

2021-06-24 10:02 0 186 推薦指數:

查看詳情

什么是數據技術

數據(Data Lake)是Pentaho公司創始人及CTO James Dixon於2010年10月在2010年10月紐約Hadoop World大會上提出來的一種數據存儲理念—即在系統或存儲庫中以自然格式存儲數據的方法。數據作為一個集中的存儲庫,可以在其中存儲任意規模的結構化 ...

Thu Jan 06 22:56:00 CST 2022 0 1385
字節跳動數據技術選型的思考與落地實踐

本文是字節跳動數據平台開發套件團隊在 Flink Forward Asia 2021: Flink Forward 峰會上的演講,着重分享了字節跳動數據技術上的選型思考和探索實踐。 文 | Gary Li 字節跳動數據平台開發套件團隊高級研發工程師,數據開源項目 Apache ...

Mon Jan 24 22:49:00 CST 2022 0 1284
常見的三大數據技術Delta、Hudi、Iceberg對比

一、Delta、Hudi、Iceberg對比概覽 由於Apache Spark在商業化上取得巨大成功,所以由其背后商業公司Databricks推出的Delta lake也顯得格外亮眼。在沒有delta數據之前,Databricks的客戶一般會采用經典的lambda架構來構建他們的流 ...

Thu Jan 06 22:41:00 CST 2022 1 10562
基於Apache Hudi構建數據的典型應用場景介紹

1. 傳統數據存在的問題與挑戰 傳統數據解決方案中,常用Hive來構建T+1級別的數據倉庫,通過HDFS存儲實現海量數據的存儲與水平擴容,通過Hive實現元數據的管理以及數據操作的SQL化。雖然能夠在海量批處理場景中取得不錯的效果,但依然存在如下現狀問題: 問題一:不支持事務 由於傳統 ...

Mon Aug 23 05:59:00 CST 2021 0 381
如何設計成功的數據

執行摘要 業務用戶不斷設想出新的創新方法,將數據用於運營報告和高級分析。 Data Lake是下一代數據存儲和管理解決方案,旨在滿足日益精明的用戶不斷變化的需求。 本白皮書探討了企業數據倉庫和其他現有數據管理和分析解決方案的現有挑戰。 它描述了Data Lake體系結構的必要 ...

Mon Mar 25 18:33:00 CST 2019 0 521
數據-Apache Hudi

Hudi特性 數據處理非結構化數據、日志數據、結構化數據 支持較快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID語義保證,多版本保證 並具有回滾功能 savepoint 用戶數據 ...

Sat Jan 30 21:12:00 CST 2021 0 443
數據構建與計算

​簡介: 2021雲棲大會雲原生企業級數據專場,阿里雲智能高級產品專家李冰為我們帶來《數據構建與計算》的分享。本文主要從數據的入和管理、引擎的選擇展開介紹了數據方案降本增效的特性。 摘要:2021雲棲大會雲原生企業級數據專場,阿里雲智能高級產品專家李冰為我們帶來《數據構建與計算 ...

Fri Nov 05 23:33:00 CST 2021 0 96
數據 Iceberg

目錄 數據(datalake) 對象存儲 Iceberg 功能 Schema 變更 隱式分區和分區布局變更 查詢特定版本和版本回滾 Iceberg in Spark 表格式說明 數據(datalake) 傳統數據 ...

Wed Jan 26 07:54:00 CST 2022 0 1106
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM