原文:什么是数据湖技术

数据湖 Data Lake 是Pentaho公司创始人及CTO James Dixon于 年 月在 年 月纽约Hadoop World大会上提出来的一种数据存储理念 即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。 简单表述总结为以下 点: 数据湖需 ...

2022-01-06 14:56 0 1385 推荐指数:

查看详情

数据技术及其应用

[摘要]数据是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据,具有改造和分析数据处理能力。来自不同来源的详细原始的数据被加载到一个综合信息库,可以看到提供给用户分析的任何数据。主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换 ...

Thu Jun 24 18:02:00 CST 2021 0 186
字节跳动数据技术选型的思考与落地实践

本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据技术上的选型思考和探索实践。 文 | Gary Li 字节跳动数据平台开发套件团队高级研发工程师,数据开源项目 Apache ...

Mon Jan 24 22:49:00 CST 2022 0 1284
常见的三大数据技术Delta、Hudi、Iceberg对比

一、Delta、Hudi、Iceberg对比概览 由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的Delta lake也显得格外亮眼。在没有delta数据之前,Databricks的客户一般会采用经典的lambda架构来构建他们的流 ...

Thu Jan 06 22:41:00 CST 2022 1 10562
如何设计成功的数据

执行摘要 业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 Data Lake是下一代数据存储和管理解决方案,旨在满足日益精明的用户不断变化的需求。 本白皮书探讨了企业数据仓库和其他现有数据管理和分析解决方案的现有挑战。 它描述了Data Lake体系结构的必要 ...

Mon Mar 25 18:33:00 CST 2019 0 521
数据-Apache Hudi

Hudi特性 数据处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据 ...

Sat Jan 30 21:12:00 CST 2021 0 443
数据构建与计算

​简介: 2021云栖大会云原生企业级数据专场,阿里云智能高级产品专家李冰为我们带来《数据构建与计算》的分享。本文主要从数据的入和管理、引擎的选择展开介绍了数据方案降本增效的特性。 摘要:2021云栖大会云原生企业级数据专场,阿里云智能高级产品专家李冰为我们带来《数据构建与计算 ...

Fri Nov 05 23:33:00 CST 2021 0 96
数据 Iceberg

目录 数据(datalake) 对象存储 Iceberg 功能 Schema 变更 隐式分区和分区布局变更 查询特定版本和版本回滚 Iceberg in Spark 表格式说明 数据(datalake) 传统数据 ...

Wed Jan 26 07:54:00 CST 2022 0 1106
数据| Hudi

1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中 ...

Mon Sep 27 05:36:00 CST 2021 0 165
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM