【文章推荐】数据湖构建与计算

原文：数据湖构建与计算

简介：云栖大会云原生企业级数据湖专场，阿里云智能高级产品专家李冰为我们带来数据湖构建与计算的分享。本文主要从数据的入湖和管理引擎的选择展开介绍了数据湖方案降本增效的特性。摘要：云栖大会云原生企业级数据湖专场，阿里云智能高级产品专家李冰为我们带来数据湖构建与计算的分享。本文主要从数据的入湖和管理引擎的选择展开分享了数据湖方案降本增效的特性。以下是精彩视频内容整理：一面临的 ...

2021-11-05 15:33 0 96 推荐指数：

查看详情

银行大数据新玩法，构建“一湖两库”金融数据湖

摘要：烟囱式的数据平台建设导致“数据孤岛”，“一湖两平台”的金融数据湖让大数据发挥最大的业务价值。大数据技术经过近几年的快速发展，在企业数据中心的基础设施上已不鲜见，尤其是金融行业，大数据技术应用一直走在其它行业前面，它们在以数据湖、融合数仓、湖内数仓（Data LakeHouse ...

使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率 ...

字节跳动基于Apache Hudi构建EB级数据湖实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。在推荐系统中，我们在两个场景下使用数据湖我们使用 ...

基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统 ...

Apache Hudi 在 B 站构建实时数据湖的实践

简介： B 站选择 Flink + Hudi 的数据湖技术方案，以及针对其做出的优化。本文作者喻兆靖，介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案，以及针对其做出的优化。主要内容为：传统离线数仓痛点数据湖技术方案 Hudi 任务稳定性 ...

Uber基于Apache Hudi构建PB级数据湖实践

1. 引言从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织 ...

构建企业级数据湖？Azure Data Lake Storage Gen2实战体验（下）

相较传统的重量级OLAP数据仓库，“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点，受到越来越多企业的青睐，逐渐成为了现代数据平台的核心和架构范式。作为微软Azure上最新一代的数据湖服务，Data Lake Storage Gen2的发布，将云上数据湖的能力和体验 ...

构建企业级数据湖？Azure Data Lake Storage Gen2实战体验（中）

引言相较传统的重量级OLAP数据仓库，“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点，受到越来越多企业的青睐，逐渐成为了现代数据平台的核心和架构范式。因此数据湖相关服务成为了云计算的发展重点之一。Azure平台早年就曾发布第一代Data Lake Storage ...

原文：数据湖构建与计算

相关推荐

相关标签