Spark詳解(03) - Spark3.0.0運行環境安裝

本文轉載自查看原文 2022-03-27 18:15 1507 Spark

Spark詳解(03) - Spark3.0.0運行環境安裝

Spark運行模式

Spark常見部署模式：

Local模式：在本地部署單個Spark服務

所謂的Local模式，就是不需要其他任何節點資源就可以在本地執行Spark代碼的環境，一般用於教學，調試，演示等。

在IDEA中運行代碼的環境稱之為開發環境，和Local模式還是有區別的。

Standalone模式：Spark自帶的任務調度模式。（國內常用）

YARN模式：Spark使用Hadoop的YARN組件進行資源與任務調度。（國內常用）

Windows模式：為了方便在學習測試spark程序，Spark提供了可以在windows系統下啟動本地集群的方式，這樣，在不使用虛擬機或服務器的情況下，也能滿足Spark的基本使用。

Mesos & K8S模式：（了解）。

Mesos是Apache下的開源分布式資源管理框架，它被稱為是分布式系統的內核,在Twitter得到廣泛使用,管理着Twitter超過30,0000台服務器上的應用部署，但是在國內，依然使用着傳統的Hadoop大數據框架，所以國內使用Mesos框架的並不多，但是原理都差不多。

容器化部署是目前業界很流行的一項技術，基於Docker鏡像運行能夠讓用戶更加方便地對應用進行管理和運維。容器管理工具中最為流行的就是Kubernetes（k8s），而Spark也在最近的版本中支持了k8s部署模式。詳情參考官網地址：https://spark.apache.org/docs/latest/running-on-kubernetes.html

Spark安裝地址

官網地址：http://spark.apache.org/

文檔查看地址：https://spark.apache.org/docs/3.0.0/

官網下載地址：https://spark.apache.org/downloads.html

鏡像歷史版本下載地址：https://archive.apache.org/dist/spark/

本文使用的版本下載地址：https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

Local模式安裝（測試環境）

Local模式就是運行在一台計算機上的模式，通常就是用於測試環境。

安裝

Local模式的安裝非常簡單，直接將安裝包上傳到服務器並解壓即可使用，具體操作步驟如下

上傳安裝包park-3.0.0-bin-hadoop3.2.tgz到服務器

解壓安裝包

[root@hadoop102 software]# tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/

[root@hadoop102 software]# cd /opt/module/

[root@hadoop102 module]# mv spark-3.0.0-bin-hadoop3.2/ spark-local

使用

官方求PI案例驗證安裝結果

[root@hadoop102 spark-local]# bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples/jars/spark-examples_2.12-3.0.0.jar 10

（1）local: 沒有指定線程數，則所有計算都運行在一個線程當中，沒有任何並行計算

（2）local[K]:指定使用K個Core來運行計算，比如local[2]就是運行2個Core來執行

（3）local[*]：默認模式。自動按照CPU最多核來設置線程數。比如CPU有8核，Spark自動設置8個線程計算。

spark-examples_2.12-3.0.0.jar：要運行的程序jar包名稱；

10：要運行程序的輸入參數（這里表示計算圓周率π的次數，計算次數越多，准確率越高）；

可以查看spark-submit所有參數：

[root@hadoop102 spark-local]# bin/spark-submit

官方WordCount案例

1）需求：讀取多個輸入文件，統計每個單詞出現的總次數。

在input下創建2個文件1.txt和2.txt，並輸入內容

echo "hello hadoop" >> 1.txt

echo "hello spark" >> 1.txt

echo "hello hadoop" >> 2.txt

echo "hello spark" >> 2.txt

（2）使用bin/spark-shell命令啟動spark-shell

注意：sc是SparkCore程序的入口；spark是SparkSQL程序入口；master = local[*]表示本地模式運行。

Spark context Web UI available at http://192.168.194.102:4040

Spark context available as 'sc' (master = local[*], app id = local-1646410143774).

再開啟一個hadoop102遠程連接窗口，使用jps查看SparkSubmit進程

[root@hadoop102 ~]# jps

1370 Jps

1276 SparkSubmit

運行任務方式說明：

spark-submit，是將jar上傳到集群，執行Spark任務；

spark-shell，相當於命令行工具，本身也是一個Application。

（3）登錄hadoop102:4040，查看程序運行情況（注意：spark-shell窗口關閉掉，則hadoop102:4040頁面關閉）

說明：本地模式下，默認的調度器為FIFO。

（5）運行WordCount程序

scala> sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hello,4), (spark,2), (hadoop,2))

注意：只有collect開始執行時，才會加載數據。

登錄hadoop102:4040查看程序運行結果

Standalone（獨立）模式

Standalone模式（也稱獨立模式）是Spark自帶的資源調動引擎，構建一個由Master + Slave構成的Spark集群，Spark運行在集群中。

這個要和Hadoop中的Standalone區別開來。這里的Standalone是指只用Spark來搭建一個集群，不需要借助Hadoop的Yarn和Mesos等其他框架。

安裝

集群規划

Hadoop102： Master, Worker

Hadoop103：Worker

Hadoop104：Worker

環境准備

ssh-copy-id hadoop102

ssh-copy-id hadoop103

ssh-copy-id hadoop104

關閉防火牆

[root@hadoop102 module]# tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/

[root@hadoop102 module]# cd /opt/module/

[root@hadoop102 module]# mv spark-3.0.0-bin-hadoop3.2/ spark-standlone

修改slave文件，添加work節點：

[root@hadoop102 module]# cd spark-standlone/conf/

[root@hadoop102 conf]# mv slaves.template slaves

[root@hadoop102 conf]# vi slaves

修改spark-env.sh文件，添加master節點

[root@hadoop102 conf]# mv spark-env.sh.template spark-env.sh

[root@hadoop102 conf]# vi spark-env.sh

在文件末尾添加如下內容

SPARK_MASTER_HOST=hadoop102

SPARK_MASTER_PORT=7077

配置JAVA_HOME環境變量

[root@hadoop102 spark-standlone]# cd ../

[root@hadoop102 spark-standlone]# vi /opt/module/spark-standlone/sbin/spark-config.sh

在文件末尾添加如下內容

export JAVA_HOME=export JAVA_HOME=/usr/local/jdk1.8.0_191

如果不配置JAVA_HOME環境變量，在執行sbin/start-all.sh命令啟動spark集群的時候可能會出現JAVA_HOME is not set 異常

分發spark-standalone包

[root@hadoop102 conf]# cd /opt/module/

[root@hadoop102 module]# scp -r spark-standlone/ hadoop103:/opt/module/spark-standlone

[root@hadoop102 module]# scp -r spark-standlone/ hadoop104:/opt/module/spark-standlone

在hadoop102服務器上啟動spark集群

[root@hadoop102 module]# cd /opt/module/spark-standlone/

[root@hadoop102 spark-standlone]# sbin/start-all.sh

查看三台服務器運行進程

[root@hadoop102 spark-standlone]# jps

2128 Worker

2183 Jps

2059 Master

[root@hadoop103 module]# jps

1739 Worker

1788 Jps

[root@hadoop104 module]# jps

1669 Worker

1718 Jps

網頁查看
瀏覽器中查看web頁面：hadoop102:8080（master web的端口，相當於hadoop的8088端口）

目前還看不到任何任務的執行信息。

Spark集群測試案例

運行官方求PI案例

[root@hadoop102 spark-standlone]# bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop102:7077 ./examples/jars/spark-examples_2.12-3.0.0.jar 10

參數：--master spark://hadoop102:7077指定要連接集群的master，如果不設置—master參數會默認使用本機，當遠程提交spark任務時必須要制定該參數才能正確的找到spark集群

頁面查看http://hadoop102:8080/，發現執行本次任務，默認采用三台服務器節點的總核數3核，每個節點內存1024M。

參數說明

配置Executor可用內存為2G，使用CPU核數為2個

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://hadoop102:7077 \

--executor-memory 2G \

--total-executor-cores 2 \

./examples/jars/spark-examples_2.12-3.0.0.jar \

Spark任務提交設置參數的基本語法

bin/spark-submit \

--class <main-class>

--master <master-url> \

... # other options

<application-jar> \

[application-arguments]

相關參數說明

參數	解釋	可選值舉例
--class	Spark程序中包含主函數的類
--master	Spark程序運行的模式	本地模式：local[*]、spark://hadoop102:7077、 Yarn
--executor-memory 1G	指定每個executor可用內存為1G	符合集群內存配置即可，具體情況具體分析。
--total-executor-cores 2	指定所有executor使用的cpu核數為2個
application-jar	打包好的應用jar，包含依賴。這個URL在集群中全局可見。比如hdfs:// 共享存儲系統，如果是file:// path，那么所有的節點的path都包含同樣的jar
application-arguments	傳給main()方法的參數