【文章推荐】Spark源码剖析 - 计算引擎

原文：Spark源码剖析 - 计算引擎

本章导读 RDD作为Spark对各种数据计算模型的统一抽象，被用于迭代计算过程以及任务输出结果的缓存读写。在所有MapReduce框架中，shuffle是连接map任务和reduce任务的桥梁。map任务的中间输出要作为reduce任务的输入，就必须经过shuffle，shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce，我们可以看到Spark提供多 ...

2018-08-10 01:30 0 1780 推荐指数：

查看详情

spark 源码分析之七--Spark RPC剖析之RpcEndPoint和RpcEndPointRef剖析

RpcEndpoint 文档对RpcEndpoint的解释：An end point for the RPC that defines what functions to trigger given ...

Spark源码剖析（一）：如何将spark源码导入到IDEA中

由于近期准备深入研究一下Spark的核心源码，所以开了这一系列用来记录自己研究spark源码的过程！想要读源码，那么第一步肯定导入spark源码啦（笔者使用的是IntelliJ IDEA），在网上找了一圈，尝试了好几种方法都没有成功，最终通过自己摸索出了一种非常简单的方式（只需要两步即可 ...

Chrome V8 引擎源码剖析

Chrome V8 引擎源码剖析 V8 https://github.com/v8/v8 array & sort https://github.com/v8/v8/search?l=JavaScript&o=desc&p=1&q ...

Spark源码剖析 - SparkContext的初始化(一)

1. SparkContext概述注意：SparkContext的初始化剖析是基于Spark2.1.0版本的 Spark Driver用于提交用户应用程序，实际可以看作Spark的客户端。了解Spark Driver的初始化，有助于读者理解用户应用程序在客户端的处理过程。 Spark ...

Spark Stage切分源码剖析——DAGScheduler

Spark中的任务管理是很重要的内容，可以说想要理解Spark的计算流程，就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分，Stage的切分——DAG图的创建先说说概念在Spark ...

spark 源码分析之十三 -- SerializerManager剖析

对SerializerManager的说明：它是为各种Spark组件配置序列化，压缩和加密的组件，包括自动选择用于shuffle的Serializer。spark中的数据在network IO 或 local disk IO传输过程中。都需要序列化。其默认的 Serializer ...

spark 源码分析之十七 -- Spark磁盘存储剖析

上篇文章 spark 源码分析之十六 -- Spark内存存储剖析主要剖析了Spark 的内存存储。本篇文章主要剖析磁盘存储。总述磁盘存储相对比较简单，相关的类关系图如下：我们先从依赖类 DiskBlockManager 剖析 ...

spark 源码分析之十五 -- Spark内存管理剖析

本篇文章主要剖析Spark的内存管理体系。在上篇文章 spark 源码分析之十四 -- broadcast 是如何实现的？中对存储相关的内容没有做过多的剖析，下面计划先剖析Spark的内存机制，进而进入内存存储，最后再剖析磁盘存储。本篇文章主要剖析内存管理机制。整体介绍 Spark内存 ...

原文：Spark源码剖析 - 计算引擎

相关推荐

相关标签