标签【RDD】 - 码上欢乐

摘要： 1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 ...

Spark RDD和DataSet与DataFrame转换成RDD

Spark RDD和DataSet与DataFrame转换成RDD 一、什么是RDD RDD是弹性分布式数据集（resilient distributed dataset）的简称 ...

pyspark创建RDD的方式主要有两种，一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据；另一种是通过spark. ...

Spark常用RDD操作总结

aggregate 函数原型：aggregate(zeroValue, seqOp, combOp) seqOp相当于Map combOp相当于Reduce zeroVal ...

pyspark获取和处理RDD数据

弹性分布式数据集（RDD）是一组不可变的JVM对象的分布集，可以用于执行高速运算，它是Apache Spark的核心。在pyspark中获取和处理RDD数据集的方法如下： 1. 首先是导入库和环 ...

1. map(func) 将func函数作用到数据集的每个元素，生成一个新的分布式的数据集并返回 2. filter(func) 选出所有func返回值为true的元素，作为一个 ...

开发中遇到的一些问题

1.StackOverflowError 问题：简单代码记录 : for (day <- days){ 　　rdd = rdd.union(sc.textFile(/path/to/day ...

spark中的pair rdd，看这一篇就够了

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是spark专题的第四篇文章，我们一起来看下Pair RDD。定义在之前的文章当中，我们已经熟悉了RDD的相关概念 ...

Spark RDD aggregateByKey

aggregateByKey 这个RDD有点繁琐，整理一下使用示例，供参考直接上代码输出结果说明：参考代码及下面的说明进行理解官网 ...

Spark RDD 核心总结

摘要：　　1.RDD的五大属性　　　　1.1 partitions(分区) 　　　　1.2 partitioner(分区方法) 　　　　1.3 dependencies(依赖关系) 　　 ...