标签【spark集群搭建及简单上手】

reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和re ...

spark的RDD操作在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节 ...

用Idea搭建我们的Spark环境用IDEA搭建我们的环境有很多好处，其中最大的好处，就是我们甚至可以在工程当中直接运行、调试我们的代码，在控制台输出我们的结果。或者可以逐行跟踪代码，了解 ...

spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本，我们这里选择了英文原著《GoneWithTheWind》（《飘》）的文本来做一个数据统计，看看文章中各 ...

Spark的intersection intersection顾名思义，他是指交叉的。当两个RDD进行intersection后，将保留两者共有的。因此对于RDD1.intersection ...

Spark-Shell的使用执行scala命令的spark-shell 进入spark的sbin目录，打开键入即可进入spark-shell的目录 spa ...

Spark的分布式架构如我们所知，spark之所以强大，除了强大的数据处理功能，另一个优势就在于良好的分布式架构。举一个例子在Spark实战--寻找5亿次访问中，访问次数最多的人 ...