原文:Spark分析筆記

前言 第一章 Spark簡介 本章將對Spark做一個介紹,以及它的一些基本概念 Spark是什么 Spark生態系統BDAS Spark架構 Spark分布式與單機多核架構的異同 Spark的企業級應用 第二章 Spark集群的部署 Spark程序模型 彈性分布式數據集 Spark算子分類及功能 第三章 Spark計算模型 第四章 Spark工作機制詳解 第五章 ...

2016-07-26 18:48 1 5991 推薦指數:

查看詳情

Spark學習筆記(4)---Spark作業執行源碼分析

作業執行源碼分析 當我們的代碼執行到了action(行動)操作之后就會觸發作業運行。在Spark調度中最重要的是DAGScheduler和TaskScheduler兩個調度器,其中,DAGScheduler負責任務的邏輯調度, 將作業拆分為不同階段的具有依賴關系的任務集 ...

Fri Jul 07 23:54:00 CST 2017 0 3135
Spark學習筆記(2)---Spark消息通信源碼分析

Spark消息通信 Spark啟動消息通信 Spark啟動過程中主要是進行Master和Worker之間的通信,其消息發送關系如下,首先由worker節點向Master發送注冊消息,然后Master處理完畢后,返回注冊成功消息或失敗消息。 其詳細過程 ...

Thu Jul 06 21:23:00 CST 2017 0 1573
Spark源碼分析Spark Shell(上)

終於開始看Spark源碼了,先從最常用的spark-shell腳本開始吧。不要覺得一個啟動腳本有什么東東,其實里面還是有很多知識點的。另外,從啟動腳本入手,是尋找代碼入口最簡單的方法,很多開源框架,其實都可以通過這種方式來尋找源碼入口。 先來介紹一下Spark-shell是什么 ...

Sat Feb 18 18:37:00 CST 2017 0 4241
Spark源碼分析 – Checkpoint

CP的步驟 1. 首先如果RDD需要CP, 調用RDD.checkpoint()來mark 注釋說了, 這個需要在Job被執行前被mark, 原因后面看, 並且最好選擇persist這個RDD, ...

Sat Jan 11 02:24:00 CST 2014 7 2936
Spark源碼分析 – SparkContext

Spark源碼分析之-scheduler模塊 這位寫的非常好, 讓我對Spark的源碼分析, 變的輕松了許多 這里自己再梳理一遍 先看一個簡單的spark操作, 1. SparkContext 這是Spark的入口, 任何需要使用Spark的地方都需要先創建 ...

Wed Dec 25 02:03:00 CST 2013 2 7913
Spark源碼分析 – Shuffle

參考詳細探究Spark的shuffle實現, 寫的很清楚, 當前設計的來龍去脈 Hadoop Hadoop的思路是, 在mapper端每次當memory buffer中的數據快滿的時候, 先將memory中的數據, 按partition進行划分, 然后各自存成小文件, 這樣當buffer ...

Thu Jan 16 19:34:00 CST 2014 0 7206
Spark之Task原理分析

Spark中,一個應用程序要想被執行,肯定要經過以下的步驟: 從這個路線得知,最終一個job是依賴於分布在集群不同節點中的task,通過並行或者並發的運行來完成真正的工作。由此可見,一個個的分布式的task才是Spark的真正執行者。下面先來張task運行 ...

Thu Jun 21 18:48:00 CST 2018 0 925
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM