SparkUI界面介紹
可以指定提交Application的名稱
./spark-shell --master spark://node1:7077 --name myapp |
配置historyServer
- 臨時配置,對本次提交的應用程序起作用
./spark-shell --master spark://node1:7077 --name myapp1 --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://node1:8020/spark/test |
停止程序,在Web Ui中Completed Applications對應的ApplicationID中能查看history。
spark-default.conf配置文件中配置HistoryServer,對所有提交的Application都起作用
在客戶端節點,進入../spark-1.6.0/conf/ spark-defaults.conf最后加入:
//開啟記錄事件日志的功能 spark.eventLog.enabled true //設置事件日志存儲的目錄 spark.eventLog.dir hdfs://node1:9000/spark/test //設置HistoryServer加載事件日志的位置 spark.history.fs.logDirectory hdfs://node1:9000/spark/test //日志優化選項,壓縮日志 spark.eventLog.compress true |
啟動HistoryServer:
./start-history-server.sh |
訪問HistoryServer:node4:18080,之后所有提交的應用程序運行狀況都會被記錄。
Master HA
Master的高可用原理
Standalone集群只有一個Master,如果Master掛了就無法提交應用程序,需要給Master進行高可用配置,Master的高可用可以使用fileSystem(文件系統)和zookeeper(分布式協調服務)。
fileSystem只有存儲功能,可以存儲Master的元數據信息,用fileSystem搭建的Master高可用,在Master失敗時,需要我們手動啟動另外的備用Master,這種方式不推薦使用。
zookeeper有選舉和存儲功能,可以存儲Master的元素據信息,使用zookeeper搭建的Master高可用,當Master掛掉時,備用的Master會自動切換,推薦使用這種方式搭建Master的HA。
Master高可用搭建
1) 在Spark Master節點上配置主Master,配置spark-env.sh
export SPARK_DAEMON_JAVA_OPTS=" -Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node3:2181,node4:2181,node5:2181 -Dspark.deploy.zookeeper.dir=/sparkmaster0821" |
2) 發送到其他worker節點上
3) 找一台節點(非主Master節點)配置備用 Master,修改spark-env.sh配置節點上的MasterIP
4) 啟動集群之前啟動zookeeper集群:
../zkServer.sh start |
5) 啟動spark Standalone集群,啟動備用Master
6) 打開主Master和備用Master WebUI頁面,觀察狀態。
- 注意點
- 主備切換過程中不能提交Application。
- 主備切換過程中不影響已經在集群中運行的Application。因為Spark是粗粒度資源調度。
- 測試驗證
提交SparkPi程序,kill主Master觀察現象。
./spark-submit --master spark://node1:7077,node2:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000 |