【文章推荐】Spark 源码分析 -- RDD

原文：Spark 源码分析 -- RDD

关于RDD, 详细可以参考Spark的论文, 下面看下源码 A Resilient Distributed Dataset RDD , the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can be operated on in parallel. Int ...

2013-12-24 15:19 0 5627 推荐指数：

查看详情

spark 源码分析之一 -- RDD的四种依赖关系

RDD的四种依赖关系 RDD四种依赖关系，分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示：org.apache.spark.Dependency有两个一级子类，分别 ...

Spark源码系列:RDD repartition、coalesce 对比

在上一篇文章中 Spark源码系列:DataFrame repartition、coalesce 对比对DataFrame的repartition、coalesce进行了对比，在这篇文章中，将会对RDD的repartition、coalesce进行对比。 RDD重新分区的手段 ...

关于Spark中RDD的设计的一些分析

RDD, Resilient Distributed Dataset，弹性分布式数据集，是Spark的核心概念。对于RDD的原理性的知识，可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction ...

Spark源码分析之Spark Shell（上）

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。先来介绍一下Spark-shell是什么 ...

Spark源码分析 – BlockManager

参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块？为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中，RDD是由partitions组成的，对应于block 所以storage模块，就是要实现 ...

Spark源码分析 – SparkEnv

时被创建 SparkEnv Class 用于hold所有Spark运行时的环境对象, ...

Spark源码分析 – DAGScheduler

DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thr ...

Spark源码分析 – Checkpoint

CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, 否则在存CP文件时需要重新computeRDD内容并且当RDD被CP后, 所有 ...

原文：Spark 源码分析 -- RDD

相关推荐

相关标签