一:介紹
1.介紹standalone
Standalone模式是Spark自身管理資源的一個模式,類似Yarn
Yarn的結構:
ResourceManager: 負責集群資源的管理
NodeManager:負責當前機器的資源管理
CPU&內存
Spark的Standalone的結構:
Master: 負責集群資源管理
Worker: 負責當前機器的資源管理
CPU&內存
二:搭建
1.在local得基礎上搭建standalone
2.修改env.sh
SPARK_WORKER_CORES=3 一個executor分配的cpu數量
SPARK_WORKER_INSTANCES=2 一個work節點允許同時存在的executor的數量
3.修改slave
4.啟動
先啟動HDFS
在在spark根目錄下,sbin/start-all.sh
注意點:
可以單獨啟動master與slaves。
如下(補充):
5.網頁效果(standalone的master的UI網頁:8080)
只要啟動standalone模式,這個界面就是有效的。
在applications的運行或者完成處沒有任務,所以沒有什么程序。
但是SparkUI 4040界面是進不去的,這個4040在shell的時候才能打開。
三:測試
1.測試
啟動spark-shell,並配置master地址。
bin/spark-shell --master spark://linux-hadoop3.ibeifeng.com:7070
2.網頁效果
多出一個運行的applications。
3.使用程序檢測
然后輸入wordcount的程序
4.shell中的結果
5.網頁效果
8080端口:
單擊8080端口中的這個application ID。
單擊8080端口中的spark shell后,將會進入4040端口,進入sparkUI界面。
這時候可以繼續單擊Completed Jobs,可以看到job的DAG圖。