标签【大数据---Spark】

Spark的优势

首先了解一下Mapreduce 它最本质的两个过程就是Map和Reduce，Map的应用在于我们需要数据一对一的元素的映射转换，比如说进行截取，进行过滤，或者任何的转换操作，这些一对一的元素转换就称 ...

广播变量的好处

问题描述：将来数据量可能很大，所以ip规则肯定是存储在HDFS中的，这样在读取的时候根据切片数量，会启动相应的Task，但是数据切片中就可能不会包含所有的ip规则，然后你处理的log文件获取的ip就找 ...

Spark集群的任务提交执行流程

本文转自：https://www.linuxidc.com/Linux/2018-02/150886.htm 一、Spark on Standalone 1.spark集群启动后，Worker向M ...