spark安裝和提交程序測試

本文轉載自查看原文 2018-03-02 17:20 2492 spark

1. 安裝

1.1. 下載spark安裝包

下載地址spark官網：http://spark.apache.org/downloads.html

這里我們使用 spark-1.6.2-bin-hadoop2.6版本.

1.2. 規划安裝目錄

/opt/bigdata

1.3. 解壓安裝包

tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz

1.4. 重命名目錄

mv spark-1.6.2-bin-hadoop2.6 spark

1.5. 修改配置文件

配置文件目錄在 /opt/bigdata/spark/conf

vi spark-env.sh 修改文件(先把spark-env.sh.template重命名為spark-env.sh)

#配置java環境變量

export JAVA_HOME=/opt/bigdata/jdk1.7.0_67

#指定spark老大Master的IP

export SPARK_MASTER_IP=node1

#指定spark老大Master的端口

export SPARK_MASTER_PORT=7077

vi slaves 修改文件(先把slaves.template重命名為slaves)

node2

node3

1.6. 拷貝配置到其他主機

通過scp 命令將spark的安裝目錄拷貝到其他機器上

scp -r spark-2.0.2-bin-hadoop2.7/ root@node2:$PWD --拷貝到當前目錄

scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata

scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

1.7. 配置spark環境變量

將spark添加到環境變量,添加以下內容到 /etc/profile

export SPARK_HOME=/opt/bigdata/spark

export PATH=$PATH:$SPARK_HOME/bin

注意最后 source /etc/profile 刷新配置

3.7 啟動spark

#在主節點上啟動spark

/opt/bigdata/spark/sbin/start-all.sh

3.8 停止spark

#在主節點上停止spark集群

/opt/bigdata/spark/sbin/stop-all.sh

3.9 spark的web界面

正常啟動spark集群后，可以通過訪問 http://hdp-node-01:8080,查看spark的web界面，查看相關信息。

2. Spark HA高可用部署

2.1. 高可用部署說明

Spark Standalone集群是Master-Slaves架構的集群模式，和大部分的Master-Slaves結構集群一樣，存在着Master單點故障的問題。如何解決這個單點故障的問題，Spark提供了兩種方案：

基於文件系統的單點恢復(Single-Node Recovery with Local File System)。

主要用於開發或測試環境。當spark提供目錄保存spark Application和worker的注冊信息，並將他們的恢復狀態寫入該目錄中，這時，一旦Master發生故障，就可以通過重新啟動Master進程（sbin/start-master.sh），恢復已運行的spark Application和worker的注冊信息。

（2）基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)。

用於生產模式。其基本原理是通過zookeeper來選舉一個Master，其他的Master處於Standby狀態。將Standalone集群連接到同一個ZooKeeper實例並啟動多個Master，利用zookeeper提供的選舉和狀態保存功能，可以使一個Master被選舉，而其他Master處於Standby狀態。如果現任Master死去，另一個Master會通過選舉產生，並恢復到舊的Master狀態，然后恢復調度。整個恢復過程可能要1-2分鍾。

2.2. 基於zookeeper的Spark HA高可用集群配置（機器都改成一樣的）

該HA方案使用起來很簡單，首先啟動一個ZooKeeper集群，然后在不同節點上啟動Master，注意這些節點需要具有相同的zookeeper配置。

配置：

(1)vim spark-env.sh

注釋掉export SPARK_MASTER_IP=node1

(2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，內容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark"

參數說明

spark.deploy.recoveryMode：恢復模式（Master重新啟動的模式）

有三種：(1)ZooKeeper (2) FileSystem (3)NONE

spark.deploy.zookeeper.url：ZooKeeper的Server地址

spark.deploy.zookeeper.dir：保存集群元數據信息的文件、目錄。

包括Worker，Driver和Application。

注意：

在普通模式下啟動spark集群，只需要在主機上面執行start-all.sh 就可以了。

在高可用模式下啟動spark集群，先需要在任意一台主節點上啟動start-all.sh命令。然后在另外一台主節點上單獨啟動master。命令sbin/start-master.sh。

查看zk注冊命令-zkCli.sh ls / --查看注冊的服務

3. Spark啟動方式

3.1. spark 提交任務方式

3.1.1. spark on yarn：

$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \

--master yarn-cluster \

--num-executors 3 \

--driver-memory 4g \

--executor-memory 2g \

--executor-cores 1 \

--queue thequeue \

lib/spark-examples*.jar \

2）、spark on yarn提交任務時：在yarn-cluster的集群模式，驅動程序運行在不同的機器比客戶端，所以sparkcontext.addjar不會解決的是客戶端的本地文件盒。在可sparkcontext.addjar客戶端文件，包括他們的——jars選項在啟動命令。

$ ./bin/spark-submit--class my.main.Class \

--master yarn-cluster \

--jarsmy-other-jar.jar,my-other-other-jar.jar

my-main-jar.jar

app_arg1 app_arg2

3.1.2. 測試spark自帶的Pi程序，

./bin/spark-submit--class org.apache.spark.examples.SparkPi \

--master yarn-cluster\

--num-executors 1 \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1 \

lib/spark-examples*.jar\

3.1.3. spark-submit：

spark-submit測試PI：

Spark的bin子目錄中的spark-submit腳本是用於提交程序到集群中運行的工具，我們使用此工具做一個關於pi的計算。命令如下：

./bin/spark-submit --master spark://spark113:7077 \

--class org.apache.spark.examples.SparkPi \ --name Spark-Pi --executor-memory 400M \ --driver-memory 512M \

/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar

spark-submit 測試：

/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\

--classorg.apache.spark.examples.SparkPi \

--masterspark://192.168.6.71:7077 \

--executor-memory100m \

--executor-cores 1 \

1000

3.2. 以集群的模式啟動spark-shell：

./spark-shell --master spark://hadoop1:7077 --executor-memory 500m

3.3. Spark 啟動方式：

3.3.1. 本地模式啟動

spark：./spark-shell --master local[2] 注意：可以指定多個線程

3.3.2. 集群模式啟動spark：

[hadoop@hadoop1 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-shell --masterspark://hadoop1:7077 --executor-memory500m

注意：此啟動方式指定了spark-shell 運行時暫用的每個機器上executor 的內存為500m

spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

3.3.3. 在Python解釋器中啟動spark：

bin/pyspark--master local[3]

3.3.4. 在R語言的解釋器中啟動spark：

bin/sparkR --master local[2]

3.3.5. yarn的方式啟動spark：

yarn集群啟動spark：$ ./bin/spark-shell --master yarn-cluster

yarn客戶端啟動spark：$ ./bin/spark-shell --masteryarn-client

spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark-submit提交方式測試Demo spark 官方文檔（1）——提交應用程序 Spark提交應用程序之Spark-Submit分析【spark】spark-2.4.4的安裝與測試 Spark學習之第一個程序打包、提交任務到集群 Spark學習（四） -- Spark作業提交 livy提交spark應用提交任務到Spark Spark提交任務到集群 Spark Standalone 提交模式