原文:数据湖技术及其应用

摘要 数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据,具有改造和分析数据处理能力。来自不同来源的详细原始的数据被加载到一个综合信息库,可以看到提供给用户分析的任何数据。主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告 可视化 分析和机器学习等各种任务的转换数据。数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。数据仓库技术需要事先 ...

2021-06-24 10:02 0 186 推荐指数:

查看详情

什么是数据技术

数据(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据作为一个集中的存储库,可以在其中存储任意规模的结构化 ...

Thu Jan 06 22:56:00 CST 2022 0 1385
字节跳动数据技术选型的思考与落地实践

本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据技术上的选型思考和探索实践。 文 | Gary Li 字节跳动数据平台开发套件团队高级研发工程师,数据开源项目 Apache ...

Mon Jan 24 22:49:00 CST 2022 0 1284
常见的三大数据技术Delta、Hudi、Iceberg对比

一、Delta、Hudi、Iceberg对比概览 由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的Delta lake也显得格外亮眼。在没有delta数据之前,Databricks的客户一般会采用经典的lambda架构来构建他们的流 ...

Thu Jan 06 22:41:00 CST 2022 1 10562
基于Apache Hudi构建数据的典型应用场景介绍

1. 传统数据存在的问题与挑战 传统数据解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统 ...

Mon Aug 23 05:59:00 CST 2021 0 381
如何设计成功的数据

执行摘要 业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 Data Lake是下一代数据存储和管理解决方案,旨在满足日益精明的用户不断变化的需求。 本白皮书探讨了企业数据仓库和其他现有数据管理和分析解决方案的现有挑战。 它描述了Data Lake体系结构的必要 ...

Mon Mar 25 18:33:00 CST 2019 0 521
数据-Apache Hudi

Hudi特性 数据处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据 ...

Sat Jan 30 21:12:00 CST 2021 0 443
数据构建与计算

​简介: 2021云栖大会云原生企业级数据专场,阿里云智能高级产品专家李冰为我们带来《数据构建与计算》的分享。本文主要从数据的入和管理、引擎的选择展开介绍了数据方案降本增效的特性。 摘要:2021云栖大会云原生企业级数据专场,阿里云智能高级产品专家李冰为我们带来《数据构建与计算 ...

Fri Nov 05 23:33:00 CST 2021 0 96
数据 Iceberg

目录 数据(datalake) 对象存储 Iceberg 功能 Schema 变更 隐式分区和分区布局变更 查询特定版本和版本回滚 Iceberg in Spark 表格式说明 数据(datalake) 传统数据 ...

Wed Jan 26 07:54:00 CST 2022 0 1106
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM