生產環境的 Spark Job 都是跑在集群上的,畢竟 Spark 為大數據而生,海量的數據處理必須依靠集群。但是在開發Spark的的時候,不可避免我們要在本地進行一些開發和測試工作,所以如何在本地用好Spark也十分重要,下面給大家分享一些經驗。
首先你需要在本機上安裝好了Java,Scala和Spark,並配置好了環境變量。詳情請參考官方文檔或其他教程。
spark-shell
本地運行Spark最直接的方式就是在命令行里面運行spark-shell,成功后你將看到如下信息:
首先可以仔細閱讀一下命令行的提示信息,
Picked up _JAVA_OPTIONS: -Xmx512M -Xms512M // _JAVA_OPTIONS是我在系統環境變量里面設置的值
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties // 告訴你log4j使用配置
Setting default log level to "WARN". // log級別
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). // 如何調整log級別
Spark context Web UI available at http://localhost:4040 // 本地訪問Web UI的地方,很重要
Spark context available as 'sc' (master = local[*], app id = local-1590066004392). // master配置和 sc變量
Spark session available as 'spark'. // spark變量
可以發現必要的信息都已經給我們提示好了,不過不知道哪里養成的壞習慣,程序的提示信息我通常都是跳過不看的,其實這樣很不好,希望你沒有這種壞習慣。
我們再仔細看一下 master = local[*] 這個配置,它告訴Spark在運行中可以使用多少個核,詳細如下:
- local: 所有計算都運行在一個線程當中,沒有任何並行計算。
- local[n]: 指定使用n個線程來運行計算。
- local[*]: 這種模式直接幫你按照cpu最多cores來設置線程數了。
你可以在這個命令行像使用python解釋器一樣寫scala代碼,可以及時看到程序的運行結果,這種模式通常在最初學習spark的時候使用,或者你想要驗證一些臨時、簡短的spark代碼,可以使用這種方式。
Spark Web UI
在你使用Spark 期間,可以通過 http://localhost:4040 來訪問Web UI.
這是Spark提供的非常強大的一個工具,它可以看到運行過程中的豐富細節,網上有很多資料可以參考,這里不詳細介紹。Spark Web UI
值得一提的是,Web UI 只在你SparkSession活躍期間可以訪問,當你的job完成時這個地址就關閉了。當你打開一個spark-shell的時候,你的spark session會一直活躍,所以可以隨時訪問Web UI;當你關閉命令行的時候就不可以了。 當然你也可以通過修改配置保存這些信息,可以讓你在程序退出后依然有辦法從Web UI查看,但操作起來有點復雜,並且一般用的頻率小,就不推薦了。
Jupyter Notebook
比spark-shell更好的一種方式是使用Notebook,Notebook。 首先你可以在本機安裝Anaconda,安裝完之后自帶Jupyter Notebook,但是它默認只支持python 的kernel,也就是說只能寫python,為了能寫spark job(實際上是Scala腳本)需要再安裝一些插件,插件其實很多,我找到了一種非常簡便的方法,推薦給大家:
按照上面的教程安裝完之后,你打開Notebook,再new 下面可以看到一個新的kernel選項
新建之后就可以寫spark job了。
顯然Notebook比命令行的方式好的多,不但可以執行代碼,還可以修改、保存、分享,本地調試一些小的程序時候或者演示、驗證一些新功能的時候首選這種方式。
第一次啟動scala解釋器的時候時間會比較久,請耐心等待。查看你的notebook命令行輸出,是否忘了配置 SPARK_HOME 環境變量?
成功運行之后你將看到如下信息:
同樣,在你的Notebook運行期間你也可以到 http://localhost:4040 頁面查看Spark Web UI.
IDEA
當然,你也可以在IDEA 中寫代碼並測試,這個更接近生產環境的工作,一般最后都要使用它寫好完整的代碼,編譯並打包為jar. IDEA的介紹請參考 IDEA中運行Java/Scala/Spark程序.
寫代碼的過程不再做介紹,在IDEA里運行的時候同樣需要指定master為本機,你有兩種方式可以使用:一是在程序的代碼里直接設置,另外一種是在VM參數中添加。建議選擇后者。
Run -> Edit Configurations -> VM Options: -Dspark.master=local[6]
另外你還可以增加一個命令行參數,例如: --local, 這樣你可以在腳本中方便地輸出一些只有你在本地想看的信息。
// 檢查命令行參數,賦值給local變量,方便測試一些本地信息
if(arg.startsWith("--local"))
{
local = true
}
最后,當你在IDEA里面運行Spark Job的時候,運行結束之后Web UI的端口會自動關閉,所以如果你想要在程序運行完的一段時間內還可以看到這些信息(通常都是需要的),你需要在程序結束的位置加上如下語句:
if(local)
{
System.in.read
spark.stop()
}
如果你喜歡我的文章,歡迎到我的個人網站關注我,非常感謝!