原文:Spark源碼分析之Spark Shell(上)

終於開始看Spark源碼了,先從最常用的spark shell腳本開始吧。不要覺得一個啟動腳本有什么東東,其實里面還是有很多知識點的。另外,從啟動腳本入手,是尋找代碼入口最簡單的方法,很多開源框架,其實都可以通過這種方式來尋找源碼入口。 先來介紹一下Spark shell是什么 Spark shell是提供給用戶即時交互的一個命令窗口,你可以在里面編寫spark代碼,然后根據你的命令立即進行運算 ...

2017-02-18 10:37 0 4241 推薦指數:

查看詳情

Spark源碼分析Spark Shell(下)

繼上次的Spark-shell腳本源碼分析,還剩下后面半段。由於上次涉及了不少shell的基本內容,因此就把trap和stty放在這篇來講述。 上篇回顧:Spark源碼分析Spark Shell(上) 總結一下,上面的代碼大體上做了三件事: 1 捕獲終端信號,執行退出 ...

Sun Feb 19 19:20:00 CST 2017 0 1782
Spark源碼系列(九)spark源碼分析以及優化

第一章、spark源碼分析之RDD四種依賴關系 一、RDD四種依賴關系 RDD四種依賴關系,分別是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四種依賴關系。如下圖所示 ...

Wed May 27 23:44:00 CST 2020 0 592
Spark源碼分析 – Checkpoint

CP的步驟 1. 首先如果RDD需要CP, 調用RDD.checkpoint()來mark 注釋說了, 這個需要在Job被執行前被mark, 原因后面看, 並且最好選擇persist這個RDD, ...

Sat Jan 11 02:24:00 CST 2014 7 2936
Spark源碼分析 – SparkContext

Spark源碼分析之-scheduler模塊 這位寫的非常好, 讓我對Spark源碼分析, 變的輕松了許多 這里自己再梳理一遍 先看一個簡單的spark操作, 1. SparkContext 這是Spark的入口, 任何需要使用Spark的地方都需要先創建 ...

Wed Dec 25 02:03:00 CST 2013 2 7913
Spark源碼分析 – Shuffle

參考詳細探究Spark的shuffle實現, 寫的很清楚, 當前設計的來龍去脈 Hadoop Hadoop的思路是, 在mapper端每次當memory buffer中的數據快滿的時候, 先將memory中的數據, 按partition進行划分, 然后各自存成小文件, 這樣當buffer ...

Thu Jan 16 19:34:00 CST 2014 0 7206
Spark源碼分析 -- PairRDD

和一般RDD最大的不同就是有兩個泛型參數, [K, V]表示pair的概念 關鍵的function是, combineByKey, 所有pair相關操作的抽象 combine是這樣的操作, Turn ...

Tue Dec 24 23:21:00 CST 2013 1 3562
Spark 源碼分析系列

如下,是 spark 相關系列的一些文章匯總,持續更新中...... Spark RPC spark 源碼分析之五--Spark RPC剖析之創建NettyRpcEnv spark 源碼分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源碼 ...

Mon Jul 29 00:58:00 CST 2019 0 1524
Spark Mllib源碼分析

1. Param   Spark ML使用一個自定義的Map(ParmaMap類型),其實該類內部使用了mutable.Map容器來存儲數據。 如下所示其定義: Class ParamMap private[ml] (private ...

Fri Sep 08 05:12:00 CST 2017 0 1555
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM