原文:Spark面试题(二)

首发于我的个人博客:Spark面试题 二 Spark有哪两种算子 Transformation 转化 算子和Action 执行 算子。 Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子 在我们的开发过程中,能避免则尽可能避免使用reduceByKey join distinct repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。 这样的话,没 ...

2021-10-28 22:05 0 102 推荐指数:

查看详情

Spark面试题(二)

一、spark streaming和storm有何区别? 一个实时毫秒,一个准实时亚秒,不过storm的吞吐率比较低。 二、spark有哪些组件? Master:管理集群和节点,不参与计算。 Worker:计算节点,进程本身不参与计算,和master汇报。 Driver:运行 ...

Mon Feb 25 05:52:00 CST 2019 0 849
Spark面试题(四)

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 ...

Mon Nov 08 04:17:00 CST 2021 0 216
Spark面试题

RDD怎么理解? RDD 是 Spark 的灵魂,也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。Rdd的五个特征: 1. dependencies: 建立 RDD 的依赖关系 ...

Fri Mar 15 00:12:00 CST 2019 0 1866
Spark面试题(一)

一、spark集群运算的模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业 ...

Mon Feb 25 05:51:00 CST 2019 0 1223
spark面试题-1

原文链接:https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最 ...

Sat Nov 16 05:45:00 CST 2019 0 545
Spark面试题

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 ...

Wed Oct 27 07:39:00 CST 2021 0 913
spark基本面试题

目录 序言 一、spark基本常识 1、spark中的RDD是什么,有哪些特性? 2、概述一下spark中常用算子区别(map,mapPartitions, foreach, foreachPartition) 3、map与flatMap ...

Sat Feb 01 23:44:00 CST 2020 0 2040
Spark面试题

1、Spark有几种部署方式?(重点) Spark支持3种集群管理器(Cluster Manager),分别为: Standalone:独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建 ...

Wed Jun 03 17:13:00 CST 2020 0 1018
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM