【文章推薦】Apache Spark源碼走讀之3 -- Task運行期之函數調用關系分析

原文：Apache Spark源碼走讀之3 -- Task運行期之函數調用關系分析

歡迎轉載，轉載請注明出處，徽滬一郎。概要本篇主要闡述在TaskRunner中執行的task其業務邏輯是如何被調用到的，另外試圖講清楚運行着的task其輸入的數據從哪獲取，處理的結果返回到哪里，如何返回。准備 spark已經安裝完畢 spark運行在local mode或local cluster mode local cluster mode local cluster模式也稱為偽分布式，可 ...

2014-04-23 15:07 0 11013 推薦指數：

查看詳情

Apache Spark源碼走讀之12 -- Hive on Spark運行環境搭建

歡迎轉載，轉載請注明出處，徽滬一郎。楔子 Hive是基於Hadoop的開源數據倉庫工具，提供了類似於SQL的HiveQL語言，使得上層的數據分析人員不用知道太多MapReduce的知識就能對存儲於Hdfs中的海量數據進行分析。由於這一特性而收到廣泛的歡迎。 Hive的整體框架中有一個重要 ...

Apache Spark源碼走讀之10 -- 在YARN上運行SparkPi

y歡迎轉載，轉載請注明出處，徽滬一郎。概要 “spark已經比較頭痛了，還要將其運行在yarn上，yarn是什么，我一點概念都沒有哎，再怎么辦啊。不要跟我講什么原理了，能不能直接告訴我怎么將spark在yarn上面跑起來，I'm a dummy, just told me how to do ...

Apache Spark源碼走讀之2 -- Job的提交與運行

歡迎轉載，轉載請注明出處，徽滬一郎。概要本文以wordCount為例，詳細說明spark創建和運行job的過程，重點是在進程及線程的創建。實驗環境搭建在進行后續操作前，確保下列條件已滿足。下載spark binary 0.9.1 安裝scala 安裝sbt ...

Apache Spark源碼走讀之5 -- DStream處理的容錯性分析

再次處理呢？環境搭建為了有一個感性的認識，先運行一下簡單的Spark Streaming示例。首 ...

Apache Spark源碼走讀之6 -- 存儲子系統分析

歡迎轉載，轉載請注明出處，徽滬一郎。楔子 Spark計算速度遠勝於Hadoop的原因之一就在於中間結果是緩存在內存而不是直接寫入到disk，本文嘗試分析Spark中存儲子系統的構成，並以數據寫入和數據讀取為例，講述清楚存儲子系統中各部件的交互關系。存儲子系統概覽上圖是Spark ...

Apache Spark源碼走讀之7 -- Standalone部署方式分析

歡迎轉載，轉載請注明出處，徽滬一郎。楔子在Spark源碼走讀系列之2中曾經提到Spark能以Standalone的方式來運行cluster，但沒有對Application的提交與具體運行流程做詳細的分析，本文就這些問題做一個比較詳細的分析，並且對在standalone模式下如何實現HA進行 ...

Apache Spark源碼走讀之9 -- Spark源碼編譯

歡迎轉載，轉載請注明出處，徽滬一郎。概要本來源碼編譯沒有什么可說的，對於java項目來說，只要會點maven或ant的簡單命令，依葫蘆畫瓢，一下子就ok了。但到了Spark上面，事情似乎不這么簡單，按照spark officical document上的來做，總會出現這樣或那樣的編譯 ...

Apache Spark源碼走讀之8 -- Spark on Yarn

支持Yarn部署，本文將就Spark如何實現在Yarn平台上的部署作比較詳盡的分析。 Spark S ...

原文：Apache Spark源碼走讀之3 -- Task運行期之函數調用關系分析

相關推薦

相關標簽