原文:数据湖构建与计算

简介: 云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来 数据湖构建与计算 的分享。本文主要从数据的入湖和管理 引擎的选择展开介绍了数据湖方案降本增效的特性。 摘要: 云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来 数据湖构建与计算 的分享。 本文主要从数据的入湖和管理 引擎的选择展开分享了数据湖方案降本增效的特性。 以下是精彩视频内容整理: 一 面临的 ...

2021-11-05 15:33 0 96 推荐指数:

查看详情

银行大数据新玩法,构建“一两库”金融数据

摘要:烟囱式的数据平台建设导致“数据孤岛”,“一两平台”的金融数据让大数据发挥最大的业务价值。 大数据技术经过近几年的快速发展,在企业数据中心的基础设施上已不鲜见,尤其是金融行业,大数据技术应用一直走在其它行业前面,它们在以数据、融合数仓、湖内数仓(Data LakeHouse ...

Mon Aug 31 19:35:00 CST 2020 0 571
使用Apache Spark和Apache Hudi构建分析数据

1. 引入 大多数现代数据都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据时,更新数据并不罕见。根据不同场景,这些更新频率 ...

Mon Jun 15 17:27:00 CST 2020 0 3251
字节跳动基于Apache Hudi构建EB级数据实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据 我们使用 ...

Sun Aug 29 17:26:00 CST 2021 0 367
基于Apache Hudi构建数据的典型应用场景介绍

1. 传统数据存在的问题与挑战 传统数据解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统 ...

Mon Aug 23 05:59:00 CST 2021 0 381
Apache Hudi 在 B 站构建实时数据的实践

​简介: B 站选择 Flink + Hudi 的数据技术方案,以及针对其做出的优化。 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据技术方案,以及针对其做出的优化。主要内容为: 传统离线数仓痛点 数据技术方案 Hudi 任务稳定性 ...

Fri Sep 10 19:19:00 CST 2021 0 112
Uber基于Apache Hudi构建PB级数据实践

1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织 ...

Thu Jun 11 17:29:00 CST 2020 0 943
构建企业级数据?Azure Data Lake Storage Gen2实战体验(下)

相较传统的重量级OLAP数据仓库,“数据”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 作为微软Azure上最新一代的数据服务,Data Lake Storage Gen2的发布,将云上数据的能力和体验 ...

Mon Nov 04 06:12:00 CST 2019 0 415
构建企业级数据?Azure Data Lake Storage Gen2实战体验(中)

引言 相较传统的重量级OLAP数据仓库,“数据”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 因此数据相关服务成为了云计算的发展重点之一。Azure平台早年就曾发布第一代Data Lake Storage ...

Mon Sep 23 08:28:00 CST 2019 0 610
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM