原文:Apache Hudi集成Apache Zeppelin实战

. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的 可交互且可协作的精美文档,并且支持多种语言,包括 Scala 使用 Apache Spark Python Apache Spark SparkSQL Hive Markdown Shell等等。当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zepp ...

2020-04-28 09:17 0 1086 推荐指数:

查看详情

Apache HudiApache Flink集成

感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi自诞生至今一直使用Spark ...

Tue Oct 13 17:53:00 CST 2020 0 3450
Apache Hudi集成Spark SQL抢先体验

Apache Hudi集成Spark SQL抢先体验 1. 摘要 社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hudi表的DDL/DML操作 ...

Mon May 24 05:34:00 CST 2021 0 2434
Apache Hudi 与 Hive 集成手册

1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方便的进行实时视图,读优化视图以及增量视图的查询。 2. Hive对Hudi集成 ...

Mon Dec 13 06:28:00 CST 2021 1 4465
生态 | Apache Hudi集成Alluxio实践

原文链接:https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数 ...

Tue Jul 21 04:51:00 CST 2020 0 870
Apache Zeppelin是什么?

     不多说,直接上干货! Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell ...

Tue Jun 06 17:34:00 CST 2017 0 2170
真香!PySpark整合Apache Hudi实战

1. 准备 Hudi支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动 spark-avro模块需要在--packages显示指定 spark-avro和spark的版本必须匹配 本示例中,由于依赖spark-avro_2.11 ...

Mon May 11 00:12:00 CST 2020 0 1103
Apache Hudi + AWS S3 + Athena实战

Apache Hudi在阿里巴巴集团、EMIS Health,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由Amazon AWS EMR和Google云平台支持,最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力,本博客 ...

Tue Aug 04 03:25:00 CST 2020 0 1189
Apache Zeppelin是什么?

Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks ...

Thu May 31 21:03:00 CST 2018 1 17158
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM