【文章推薦】Spark 源碼分析 -- RDD

原文：Spark 源碼分析 -- RDD

關於RDD, 詳細可以參考Spark的論文, 下面看下源碼 A Resilient Distributed Dataset RDD , the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can be operated on in parallel. Int ...

2013-12-24 15:19 0 5627 推薦指數：

查看詳情

spark 源碼分析之一 -- RDD的四種依賴關系

RDD的四種依賴關系 RDD四種依賴關系，分別是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四種依賴關系。如下圖所示：org.apache.spark.Dependency有兩個一級子類，分別 ...

Spark源碼系列:RDD repartition、coalesce 對比

在上一篇文章中 Spark源碼系列:DataFrame repartition、coalesce 對比對DataFrame的repartition、coalesce進行了對比，在這篇文章中，將會對RDD的repartition、coalesce進行對比。 RDD重新分區的手段 ...

關於Spark中RDD的設計的一些分析

RDD, Resilient Distributed Dataset，彈性分布式數據集，是Spark的核心概念。對於RDD的原理性的知識，可以參閱Resilient Distributed Datasets: A Fault-Tolerant Abstraction ...

Spark源碼分析之Spark Shell（上）

終於開始看Spark源碼了，先從最常用的spark-shell腳本開始吧。不要覺得一個啟動腳本有什么東東，其實里面還是有很多知識點的。另外，從啟動腳本入手，是尋找代碼入口最簡單的方法，很多開源框架，其實都可以通過這種方式來尋找源碼入口。先來介紹一下Spark-shell是什么 ...

Spark源碼分析 – BlockManager

參考, Spark源碼分析之-Storage模塊對於storage, 為何Spark需要storage模塊？為了cache RDD Spark的特點就是可以將RDD cache在memory或disk中，RDD是由partitions組成的，對應於block 所以storage模塊，就是要實現 ...

Spark源碼分析 – SparkEnv

時被創建 SparkEnv Class 用於hold所有Spark運行時的環境對象, ...

Spark源碼分析 – DAGScheduler

DAGScheduler的架構其實非常簡單, 1. eventQueue, 所有需要DAGScheduler處理的事情都需要往eventQueue中發送event 2. eventLoop Thr ...

Spark源碼分析 – Checkpoint

CP的步驟 1. 首先如果RDD需要CP, 調用RDD.checkpoint()來mark 注釋說了, 這個需要在Job被執行前被mark, 原因后面看, 並且最好選擇persist這個RDD, 否則在存CP文件時需要重新computeRDD內容並且當RDD被CP后, 所有 ...

原文：Spark 源碼分析 -- RDD

相關推薦

相關標簽