原文:Spark源碼剖析 - 計算引擎

本章導讀 RDD作為Spark對各種數據計算模型的統一抽象,被用於迭代計算過程以及任務輸出結果的緩存讀寫。在所有MapReduce框架中,shuffle是連接map任務和reduce任務的橋梁。map任務的中間輸出要作為reduce任務的輸入,就必須經過shuffle,shuffle的性能優劣直接決定了整個計算引擎的性能和吞吐量。相比於Hadoop的MapReduce,我們可以看到Spark提供多 ...

2018-08-10 01:30 0 1780 推薦指數:

查看詳情

Spark源碼剖析(一):如何將spark源碼導入到IDEA中

由於近期准備深入研究一下Spark的核心源碼,所以開了這一系列用來記錄自己研究spark源碼的過程! 想要讀源碼,那么第一步肯定導入spark源碼啦(筆者使用的是IntelliJ IDEA),在網上找了一圈,嘗試了好幾種方法都沒有成功,最終通過自己摸索出了一種非常簡單的方式(只需要兩步即可 ...

Sun Dec 31 03:07:00 CST 2017 0 1713
Chrome V8 引擎源碼剖析

Chrome V8 引擎源碼剖析 V8 https://github.com/v8/v8 array & sort https://github.com/v8/v8/search?l=JavaScript&o=desc&p=1&q ...

Wed Jul 29 20:22:00 CST 2020 4 819
Spark源碼剖析 - SparkContext的初始化(一)

1. SparkContext概述 注意:SparkContext的初始化剖析是基於Spark2.1.0版本的 Spark Driver用於提交用戶應用程序,實際可以看作Spark的客戶端。了解Spark Driver的初始化,有助於讀者理解用戶應用程序在客戶端的處理過程。 Spark ...

Tue Nov 20 18:55:00 CST 2018 0 692
Spark Stage切分 源碼剖析——DAGScheduler

Spark中的任務管理是很重要的內容,可以說想要理解Spark計算流程,就必須對它的任務的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就無法去做優化...因此本篇就從源碼的角度說說其中的一部分,Stage的切分——DAG圖的創建 先說說概念 在Spark ...

Fri Apr 07 02:54:00 CST 2017 0 2099
spark 源碼分析之十三 -- SerializerManager剖析

對SerializerManager的說明: 它是為各種Spark組件配置序列化,壓縮和加密的組件,包括自動選擇用於shuffle的Serializer。spark中的數據在network IO 或 local disk IO傳輸過程中。都需要序列化。其默認的 Serializer ...

Tue Jul 16 04:03:00 CST 2019 2 351
spark 源碼分析之十七 -- Spark磁盤存儲剖析

上篇文章 spark 源碼分析之十六 -- Spark內存存儲剖析 主要剖析Spark 的內存存儲。本篇文章主要剖析磁盤存儲。 總述 磁盤存儲相對比較簡單,相關的類關系圖如下: 我們先從依賴類 DiskBlockManager 剖析 ...

Mon Jul 22 04:08:00 CST 2019 0 442
spark 源碼分析之十五 -- Spark內存管理剖析

本篇文章主要剖析Spark的內存管理體系。 在上篇文章 spark 源碼分析之十四 -- broadcast 是如何實現的?中對存儲相關的內容沒有做過多的剖析,下面計划先剖析Spark的內存機制,進而進入內存存儲,最后再剖析磁盤存儲。本篇文章主要剖析內存管理機制。 整體介紹 Spark內存 ...

Thu Jul 18 03:57:00 CST 2019 0 506
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM