原文:Spark源码分析 -- PairRDD

和一般RDD最大的不同就是有两个泛型参数, K, V 表示pair的概念 关键的function是, combineByKey, 所有pair相关操作的抽象 combine是这样的操作, Turns an RDD K, V into a result of type RDD K, C 其中C有可能只是简单类型, 但经常是seq, 比如 Int, Int to Int, Seq Int 下面来看看c ...

2013-12-24 15:21 1 3562 推荐指数:

查看详情

Spark源码分析Spark Shell(上)

终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark-shell是什么 ...

Sat Feb 18 18:37:00 CST 2017 0 4241
Spark 源码分析系列

如下,是 spark 相关系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码 ...

Mon Jul 29 00:58:00 CST 2019 0 1524
Spark Mllib源码分析

1. Param   Spark ML使用一个自定义的Map(ParmaMap类型),其实该类内部使用了mutable.Map容器来存储数据。 如下所示其定义: Class ParamMap private[ml] (private ...

Fri Sep 08 05:12:00 CST 2017 0 1555
Spark 源码分析 -- RDD

关于RDD, 详细可以参考Spark的论文, 下面看下源码 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection ...

Tue Dec 24 23:19:00 CST 2013 0 5627
Spark源码分析 – BlockManager

参考, Spark源码分析之-Storage模块 对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由partitions组成的,对应于block 所以storage模块,就是要实现 ...

Fri Jan 10 19:19:00 CST 2014 2 4455
Spark源码分析 – DAGScheduler

DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thr ...

Mon Dec 30 23:32:00 CST 2013 4 2404
Spark源码系列(九)spark源码分析以及优化

第一章、spark源码分析之RDD四种依赖关系 一、RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示 ...

Wed May 27 23:44:00 CST 2020 0 592
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM