原文:Spark 源码分析 -- RDD

关于RDD, 详细可以参考Spark的论文, 下面看下源码 A Resilient Distributed Dataset RDD , the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can be operated on in parallel. Int ...

2013-12-24 15:19 0 5627 推荐指数:

查看详情

spark 源码分析之一 -- RDD的四种依赖关系

RDD的四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示:org.apache.spark.Dependency有两个一级子类,分别 ...

Mon Jul 01 08:55:00 CST 2019 0 910
Spark源码系列:RDD repartition、coalesce 对比

在上一篇文章中 Spark源码系列:DataFrame repartition、coalesce 对比 对DataFrame的repartition、coalesce进行了对比,在这篇文章中,将会对RDD的repartition、coalesce进行对比。 RDD重新分区的手段 ...

Fri Nov 02 01:14:00 CST 2018 0 1065
关于SparkRDD的设计的一些分析

RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念。 对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction ...

Sun Sep 06 19:27:00 CST 2015 0 2211
Spark源码分析Spark Shell(上)

终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark-shell是什么 ...

Sat Feb 18 18:37:00 CST 2017 0 4241
Spark源码分析 – BlockManager

参考, Spark源码分析之-Storage模块 对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由partitions组成的,对应于block 所以storage模块,就是要实现 ...

Fri Jan 10 19:19:00 CST 2014 2 4455
Spark源码分析 – DAGScheduler

DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thr ...

Mon Dec 30 23:32:00 CST 2013 4 2404
Spark源码分析 – Checkpoint

CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, 否则在存CP文件时需要重新computeRDD内容 并且当RDD被CP后, 所有 ...

Sat Jan 11 02:24:00 CST 2014 7 2936
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM