前言
其實啊,無論你是初學者還是具備了有一定spark編程經驗,都需要對spark源碼足夠重視起來。
本人,肺腑之己見,想要成為大數據的大牛和頂尖專家,多結合源碼和操練編程。
准備工作
1、scala 2.10.4(本地的安裝)
Scala的安裝(本地)
2、Jdk1.7+ 或 jdk1.8+ (本地的安裝)
Jdk 1.7*安裝並配置
Jdk 1.8*安裝並配置
JDK的windows和Linux版本之下載
3、IntelliJ IDEA
IntelliJ IDEA(Community版本)的下載、安裝和WordCount的初步使用(本地模式和集群模式)
IntelliJ IDEA(Ultimate版本)的下載、安裝和WordCount的初步使用(本地模式和集群模式)
Spark源碼的編譯過程詳細解讀(各版本)
另外,最后還是建議大家開始先使用 pre-built 的 Spark,對 Spark 的運行、使用方法有所了解,編寫了一些 Spark 應用程序后再展開源代碼的閱讀,並嘗試修改源碼,進行手動編譯。
總體流程
1、從 Github 導入 Spark 工程
打開IntelliJ IDEA 后,在菜單欄中選擇 VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填入 Spark 項目的地址,並指定好本地路徑,如下圖所示。
https://github.com/apache/spark.git
或者,我們可以直接先下載好,
比如我這里,已經下載好了
解壓,
提前,先准備好
對於spark源碼的目錄結構
1、編譯相關 : sbt 、assembly、project
2、spark核心 :core
3、Spark Lib : streaming 、 sql 、graphx 、mllib
4、運行腳本和配置 : bin 、sbin 、conf
5、虛擬化 : ec2 、docker 、dev
6、式例 : examples 、data
7、部署相關: yarn
8、python支持 : python
9、repl : repl
10、 3pp : externals
現在,我開始,進入spark源碼導入工作。
先來關閉,已有的工程。
File -> Close Project
得到,如下
選擇,Import Project
這里,為了日后的spark源碼閱讀環境的方便和開發
安裝之后的幾個常用設置:
1、界面字體大小的設置
可見,界面字體的效果
2、代碼字體的設置
3、因我們平常,用習慣了eclipse,快捷鍵,設置為我們平常,eclipse的風格。
完成
簡單,帶領,如何巧看spark源碼?
這里,為了避免一個不利的閱讀,
放到D盤的根目錄下,
設置行號
其他的源碼,首先,Ctrl + Shift + R,然后,自行去閱讀。
建議,在理解概念,真的,可以拿源碼來幫助理解!
總結
所以啊,源碼 + 官網 ,是黃金組合。
更新博客(2017年),見
spark最新源碼下載並導入到開發環境下助推高質量代碼(Scala IDEA for Eclipse和IntelliJ IDEA皆適用)(以spark2.2.0源碼包為例)(圖文詳解)
如何在IDEA里給大數據項目導入該項目的相關源碼(博主推薦)(圖文詳解)
同時,大家可以關注我的個人博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/
人生苦短,我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神,匯聚於互聯網和個人學習工作的精華干貨知識,一切來於互聯網,反饋回互聯網。
目前研究領域:大數據、機器學習、深度學習、人工智能、數據挖掘、數據分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時還涉及平常所使用的手機、電腦和互聯網上的使用技巧、問題和實用軟件。 只要你一直關注和呆在群里,每天必須有收獲
以及對應本平台的QQ群:161156071(大數據躺過的坑)