原文:Apache Hudi与Apache Flink集成

感谢王祥虎 wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于 年 月进入Apache孵化器孵化,次年 月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 . 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark。放在几年前,使用Spark作 ...

2020-10-13 09:53 0 3450 推荐指数:

查看详情

Apache Hudi集成Apache Zeppelin实战

1. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive ...

Tue Apr 28 17:17:00 CST 2020 0 1086
重磅!解锁Apache Flink读写Apache Hudi新姿势

感谢阿里云 Blink 团队Danny Chan的投稿及完善FlinkHudi集成工作。 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景 ...

Sat Apr 10 20:18:00 CST 2021 0 2231
Apache Hudi集成Spark SQL抢先体验

Apache Hudi集成Spark SQL抢先体验 1. 摘要 社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hudi表的DDL/DML操作 ...

Mon May 24 05:34:00 CST 2021 0 2434
Apache Hudi 与 Hive 集成手册

1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方便的进行实时视图,读优化视图以及增量视图的查询。 2. Hive对Hudi集成 ...

Mon Dec 13 06:28:00 CST 2021 1 4465
生态 | Apache Hudi集成Alluxio实践

原文链接:https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数 ...

Tue Jul 21 04:51:00 CST 2020 0 870
基于Apache Hudi + Flink的亿级数据入湖实践

本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台 ...

Sun Jan 09 14:10:00 CST 2022 0 746
Apache Hudi使用简介

Apache Hudi使用简介 目录 Apache Hudi使用简介 数据实时处理和实时的数据 业务场景和技术选型 Apache hudi简介 使用Aapche Hudi整体思路 Hudi表数据结构 数据文件 ...

Mon Dec 28 03:47:00 CST 2020 0 1482
Apache Hudi 介绍与应用

Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hive中 ...

Sat Nov 23 01:39:00 CST 2019 0 3897
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM