原文:Apache Spark源碼走讀之3 -- Task運行期之函數調用關系分析

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本篇主要闡述在TaskRunner中執行的task其業務邏輯是如何被調用到的,另外試圖講清楚運行着的task其輸入的數據從哪獲取,處理的結果返回到哪里,如何返回。 准備 spark已經安裝完畢 spark運行在local mode或local cluster mode local cluster mode local cluster模式也稱為偽分布式,可 ...

2014-04-23 15:07 0 11013 推薦指數:

查看詳情

Apache Spark源碼走讀之12 -- Hive on Spark運行環境搭建

歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 Hive是基於Hadoop的開源數據倉庫工具,提供了類似於SQL的HiveQL語言,使得上層的數據分析人員不用知道太多MapReduce的知識就能對存儲於Hdfs中的海量數據進行分析。由於這一特性而收到廣泛的歡迎。 Hive的整體框架中有一個重要 ...

Fri May 30 16:44:00 CST 2014 0 5744
Apache Spark源碼走讀之10 -- 在YARN上運行SparkPi

y歡迎轉載,轉載請注明出處,徽滬一郎。 概要 “spark已經比較頭痛了,還要將其運行在yarn上,yarn是什么,我一點概念都沒有哎,再怎么辦啊。不要跟我講什么原理了,能不能直接告訴我怎么將spark在yarn上面跑起來,I'm a dummy, just told me how to do ...

Tue May 20 02:30:00 CST 2014 0 4045
Apache Spark源碼走讀之2 -- Job的提交與運行

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本文以wordCount為例,詳細說明spark創建和運行job的過程,重點是在進程及線程的創建。 實驗環境搭建 在進行后續操作前,確保下列條件已滿足。 下載spark binary 0.9.1 安裝scala 安裝sbt ...

Tue Apr 22 01:33:00 CST 2014 1 14705
Apache Spark源碼走讀之6 -- 存儲子系統分析

歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 Spark計算速度遠勝於Hadoop的原因之一就在於中間結果是緩存在內存而不是直接寫入到disk,本文嘗試分析Spark中存儲子系統的構成,並以數據寫入和數據讀取為例,講述清楚存儲子系統中各部件的交互關系。 存儲子系統概覽 上圖是Spark ...

Thu May 08 21:37:00 CST 2014 2 5501
Apache Spark源碼走讀之7 -- Standalone部署方式分析

歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 在Spark源碼走讀系列之2中曾經提到Spark能以Standalone的方式來運行cluster,但沒有對Application的提交與具體運行流程做詳細的分析,本文就這些問題做一個比較詳細的分析,並且對在standalone模式下如何實現HA進行 ...

Mon May 12 20:09:00 CST 2014 0 6804
Apache Spark源碼走讀之9 -- Spark源碼編譯

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...

Sat May 17 00:44:00 CST 2014 4 5352
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM