原文:Spark源码分析 – BlockManager

参考, Spark源码分析之 Storage模块 对于storage, 为何Spark需要storage模块 为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由partitions组成的,对应于block 所以storage模块,就是要实现RDD在memory和disk上的persistent功能 首先每个节点都有一个BlockManager ...

2014-01-10 11:19 2 4455 推荐指数:

查看详情

Spark源码分析 – Checkpoint

CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, ...

Sat Jan 11 02:24:00 CST 2014 7 2936
Spark源码分析 – SparkContext

Spark源码分析之-scheduler模块 这位写的非常好, 让我对Spark源码分析, 变的轻松了许多 这里自己再梳理一遍 先看一个简单的spark操作, 1. SparkContext 这是Spark的入口, 任何需要使用Spark的地方都需要先创建 ...

Wed Dec 25 02:03:00 CST 2013 2 7913
Spark源码分析 – Shuffle

参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer ...

Thu Jan 16 19:34:00 CST 2014 0 7206
Spark源码分析Spark Shell(上)

终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark-shell是什么 ...

Sat Feb 18 18:37:00 CST 2017 0 4241
Spark 源码分析 -- RDD

关于RDD, 详细可以参考Spark的论文, 下面看下源码 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection ...

Tue Dec 24 23:19:00 CST 2013 0 5627
Spark源码分析 – SparkEnv

SparkEnv在两个地方会被创建, 由于SparkEnv中包含了很多重要的模块, 比如BlockManager, 所以SparkEnv很重要 Driver端, 在SparkContext初始化的时候, SparkEnv会被创建 Executor端, 在executor初始化 ...

Mon Jan 13 18:54:00 CST 2014 10 2117
Spark源码分析 – DAGScheduler

DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thr ...

Mon Dec 30 23:32:00 CST 2013 4 2404
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM