不多說,直接上干貨!
前言
其實啊,無論你是初學者還是具備了有一定spark編程經驗,都需要對spark源碼足夠重視起來。
本人,肺腑之己見,想要成為大數據的大牛和頂尖專家,多結合源碼和操練編程。
好一段時間之前,寫過這篇博客
使用 IntelliJ IDEA 導入 Spark 最新源碼及編譯 Spark 源代碼(博主強烈推薦)
最近開始進行更新,希望能幫助到開發的你。
下載源碼
去github官網 下載
spark最新源碼下載並導入到開發環境下助推高質量代碼(Scala IDEA for Eclipse適用)(以spark2.2.0源碼包為例)
然后解壓縮為目錄,scalaIDE不支持tgz的文件關聯,只支持jar,zip。
那么就 使用文件目錄關聯就可以了,關聯spark2.0的目錄就可以了,很簡單。
比如,我這里放在D:\SoftWare
我這里為了區分,自己改名為spark-2.2.0-src
spark最新源碼下載並導入到開發環境下助推高質量代碼(IntelliJ IDEA適用)(以spark2.2.0源碼包為例)
前期博客,見
如何在IDEA里給大數據項目導入該項目的相關源碼(博主推薦)(圖文詳解)
方式1
方式2
如果是maven方式來導入源碼的話
點擊進去,為什么會報紅錯誤,maven沒改
所以,個人建議,還是maven方式好啊
方式3
如果是Scala IDEA for Eclipse,則比如把spark-1.6.1
經過解壓,我這里特意改下名字,為spark-1.6.1-src
注意:這不局限於spark,比如Hadoop、Hive、HBase....等其他大數據組件的源碼一樣的步驟,這里不多贅述。當然其他人肯定也有其他的步驟來閱讀。
比如,說在IDEA里可以直接點擊進去,maven會自動下載等,這個我不多評論。