【spark】spark-2.4.4的安裝與測試

本文轉載自查看原文 2019-10-02 21:31 2823 spark

4.2.1 下載並安裝spark

下載文件名：spark-2.4.4-bin-without-hadoop.tgz

[hadoop@hadoop01 ~]$ tar -zxvf spark-2.4.4-bin-without-hadoop.tgz

4.2.2 配置linux環境變量

[hadoop@hadoop01 ~]$ gedit ~/.bash_profile
[hadoop@hadoop01 ~]$ source ~/.bash_profile
新加入：
#spark
export SPARK_HOME=/home/hadoop/spark-2.4.4-bin-without-hadoop
export PATH=$PATH:$SPARK_HOME/bin

4.2.3 配置spark-env.sh變量環境

[hadoop@hadoop01 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop01 conf]$ gedit spark-env.sh
加入：
export JAVA_HOME=/usr/java/jdk1.8.0_131
export SCALA_HOME=/home/hadoop/scala-2.13.1
export SPARK_MASTER_IP=192.168.1.100
export HADOOP_HOME=/home/hadoop/hadoop-3.2.0
export HADOOP_CONF_DIR=/home/hadoop/hadoop-3.2.0/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-3.2.0/bin/hadoop classpath) #不添加，就會報錯

注：因為我們下載是不帶hadoop依賴jar的spark版本，所以需要在spark配置中指定hadoop的classpath

配置文件spark-env.sh：
### in conf/spark-env.sh ###

# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

# With explicit path to 'hadoop' binary export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)

# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop --config /path/to/configs classpath)

4.2.4 修改slaves文件

[hadoop@hadoop01 conf]$ cp slaves.template slaves
[hadoop@hadoop01 conf]$ gedit slaves
加入：
hadoop02
hadoop03

4.2.5 拷貝到其他節點
scp -r ~/spark-2.4.4-bin-without-hadoop hadoop02:~/
scp -r ~/spark-2.4.4-bin-without-hadoop hadoop03:~/

4.2.6 啟動spark

4.2.6.1 直接啟動

[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ sbin/start-all.sh
第一次啟動報錯：
進程顯示：failed to launch: nice -n 0 /home/hadoop/spark-2.4.4-bin-without-hadoop/bin/spark-class org.apache.spark.deploy.master.Master --host hadoop01 --port 7077 --webui-port 808
查看spark目錄下logs：
Spark Command: /usr/java/jdk1.8.0_131/bin/java -cp /home/hadoop/spark-2.4.4-bin-without-hadoop/conf/:/home/hadoop/spark-2.4.4-bin-without-hadoop/jars/*:/home/hadoop/hadoop-3.2.0/etc/hadoop/ -Xmx1g org.apache.spark.deploy.master.Master --host hadoop01 --port 7077 --webui-port 8080
========================================
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger
    at java.lang.Class.getDeclaredMethods0(Native Method)
    at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
    at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
    at java.lang.Class.getMethod0(Class.java:3018)
    at java.lang.Class.getMethod(Class.java:1784)
    at sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
    at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more

解決辦法：在spark-env.sh末尾添加“export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-3.2.0/bin/hadoop classpath)”

再次啟動spark：

[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ sbin/start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-2.4.4-bin-without-hadoop/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop01.out
hadoop03: starting org.apache.spark.deploy.worker.Worker, logging to /home/hadoop/spark-2.4.4-bin-without-hadoop/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop03.out
hadoop02: starting org.apache.spark.deploy.worker.Worker, logging to /home/hadoop/spark-2.4.4-bin-without-hadoop/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop02.out
[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ jps
29200 NodeManager
28595 DataNode
29059 ResourceManager
28804 SecondaryNameNode
30564 Master
28424 NameNode
30777 Jps
[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ ssh hadoop02
Last login: Wed Oct  2 11:21:48 2019 from hadoop01
[hadoop@hadoop02 ~]$ jps
19905 Worker
20098 Jps
18922 DataNode
19054 NodeManager
[hadoop@hadoop02 ~]$ ssh hadoop03
Last login: Tue Oct  1 15:58:07 2019 from hadoop02
[hadoop@hadoop03 ~]$ jps
18896 Jps
17699 DataNode
17829 NodeManager
18694 Worker

注1：通過jps看見三個節點有Master和Worker的進程，其中Master是spark的主控進程
注2：另外需要注意的是spark的啟動命令與hadoop的一樣，所以啟動hadoop和spark的時候需要明確指定目錄，如：hadoop-3.2.0/sbin/start-all.sh 或者spark2.4.4/sbin/start-all.sh

4.2.6.2 通過spark提供的web接口查看系統狀態，各節點都可以：
http://http://192.168.1.100:8080/
http://http://192.168.1.101:8081/
http://http://192.168.1.102:8081/

4.2.7 停止spark

[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ sbin/stop-all.sh
hadoop02: stopping org.apache.spark.deploy.worker.Worker
hadoop03: stopping org.apache.spark.deploy.worker.Worker
stopping org.apache.spark.deploy.master.Master
[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ jps
29200 NodeManager
28595 DataNode
29059 ResourceManager
28804 SecondaryNameNode
28424 NameNode
31112 Jps

4.2.8 spark的簡單使用

4.2.8.1 執行示例程序
在 ./examples/src/main 目錄下有一些 Spark 的示例程序，有 Scala、Java、Python、R 等語言的版本。我們可以先運行一個示例程序 SparkPi（即計算 π 的近似值），執行如下命令：
注：執行時會輸出非常多的運行信息，輸出結果不容易找到，可以通過 grep 命令進行過濾（命令中的 2>&1 可以將所有的信息都輸出到 stdout 中，否則由於輸出日志的性質，還是會輸出到屏幕中）：

[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ ./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
Pi is roughly 3.135075675378377

Python 版本的 SparkPi，則需要通過 spark-submit 運行：

[hadoop@hadoop01 spark-2.4.4-bin-without-hadoop]$ ./bin/spark-submit examples/src/main/python/pi.py 2>&1 | grep "Pi is roughly"
Pi is roughly 3.144580

4.2.8.2 進入shell模式：

[hadoop@hadoop01 jars]$ spark-shell
2019-10-02 21:05:49,292 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://hadoop01:4040
Spark context available as 'sc' (master = local[*], app id = local-1570021558420).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.4
      /_/
         
Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_131)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

附：

【轉】Spark集群三種部署模式的區別

Spark最主要資源管理方式按排名為Hadoop Yarn, Apache Standalone 和Mesos。在單機使用時，Spark還可以采用最基本的local模式。

目前Apache Spark支持三種分布式部署方式，分別是standalone、spark on mesos和 spark on YARN，其中，第一種類似於MapReduce 1.0所采用的模式，內部實現了容錯性和資源管理，后兩種則是未來發展的趨勢，部分容錯性和資源管理交由統一的資源管理系統完成：讓Spark運行在一個通用的資源管理系統之上，這樣可以與其他計算框架，比如MapReduce，公用一個集群資源，最大的好處是降低運維成本和提高資源利用率（資源按需分配）。本文將介紹這三種部署方式，並比較其優缺點。

1. Standalone模式

即獨立模式，自帶完整的服務，可單獨部署到一個集群中，無需依賴任何其他資源管理系統。從一定程度上說，該模式是其他兩種的基礎。借鑒Spark開發模式，我們可以得到一種開發新型計算框架的一般思路：先設計出它的standalone模式，為了快速開發，起初不需要考慮服務（比如master/slave）的容錯性，之后再開發相應的wrapper，將stanlone模式下的服務原封不動的部署到資源管理系統yarn或者mesos上，由資源管理系統負責服務本身的容錯。目前Spark在standalone模式下是沒有任何單點故障問題的，這是借助zookeeper實現的，思想類似於Hbase master單點故障解決方案。將Spark standalone與MapReduce比較，會發現它們兩個在架構上是完全一致的：
1) 都是由master/slaves服務組成的，且起初master均存在單點故障，后來均通過zookeeper解決（Apache MRv1的JobTracker仍存在單點問題，但CDH版本得到了解決）；
2) 各個節點上的資源被抽象成粗粒度的slot，有多少slot就能同時運行多少task。不同的是，MapReduce將slot分為map slot和reduce slot，它們分別只能供Map Task和Reduce Task使用，而不能共享，這是MapReduce資源利率低效的原因之一，而Spark則更優化一些，它不區分slot類型，只有一種slot，可以供各種類型的Task使用，這種方式可以提高資源利用率，但是不夠靈活，不能為不同類型的Task定制slot資源。總之，這兩種方式各有優缺點。

2. Spark On Mesos模式

這是很多公司采用的模式，官方推薦這種模式（當然，原因之一是血緣關系）。正是由於Spark開發之初就考慮到支持Mesos，因此，目前而言，Spark運行在Mesos上會比運行在YARN上更加靈活，更加自然。目前在Spark On Mesos環境中，用戶可選擇兩種調度模式之一運行自己的應用程序（可參考Andrew Xia的“Mesos Scheduling Mode on Spark”）：
1) 粗粒度模式（Coarse-grained Mode）：每個應用程序的運行環境由一個Dirver和若干個Executor組成，其中，每個Executor占用若干資源，內部可運行多個Task（對應多少個“slot”）。應用程序的各個任務正式運行之前，需要將運行環境中的資源全部申請好，且運行過程中要一直占用這些資源，即使不用，最后程序運行結束后，回收這些資源。舉個例子，比如你提交應用程序時，指定使用5個executor運行你的應用程序，每個executor占用5GB內存和5個CPU，每個executor內部設置了5個slot，則Mesos需要先為executor分配資源並啟動它們，之后開始調度任務。另外，在程序運行過程中，mesos的master和slave並不知道executor內部各個task的運行情況，executor直接將任務狀態通過內部的通信機制匯報給Driver，從一定程度上可以認為，每個應用程序利用mesos搭建了一個虛擬集群自己使用。

2) 細粒度模式（Fine-grained Mode）：鑒於粗粒度模式會造成大量資源浪費，Spark On Mesos還提供了另外一種調度模式：細粒度模式，這種模式類似於現在的雲計算，思想是按需分配。與粗粒度模式一樣，應用程序啟動時，先會啟動executor，但每個executor占用資源僅僅是自己運行所需的資源，不需要考慮將來要運行的任務，之后，mesos會為每個executor動態分配資源，每分配一些，便可以運行一個新任務，單個Task運行完之后可以馬上釋放對應的資源。每個Task會匯報狀態給Mesos slave和Mesos Master，便於更加細粒度管理和容錯，這種調度模式類似於MapReduce調度模式，每個Task完全獨立，優點是便於資源控制和隔離，但缺點也很明顯，短作業運行延遲大。

3. Spark On YARN模式

這是一種很有前景的部署模式。但限於YARN自身的發展，目前僅支持粗粒度模式（Coarse-grained Mode）。這是由於YARN上的Container資源是不可以動態伸縮的，一旦Container啟動之后，可使用的資源不能再發生變化，不過這個已經在YARN計划中了。
spark on yarn 的支持兩種模式：
1) yarn-cluster：適用於生產環境；
2) yarn-client：適用於交互、調試，希望立即看到app的輸出

yarn-cluster和yarn-client的區別在於yarn appMaster，每個yarn app實例有一個appMaster進程，是為app啟動的第一個container；負責從ResourceManager請求資源，獲取到資源后，告訴NodeManager為其啟動container。yarn-cluster和yarn-client模式內部實現還是有很大的區別。如果你需要用於生產環境，那么請選擇yarn-cluster；而如果你僅僅是Debug程序，可以選擇yarn-client。

總結：
這三種分布式部署方式各有利弊，通常需要根據實際情況決定采用哪種方案。進行方案選擇時，往往要考慮公司的技術路線（采用Hadoop生態系統還是其他生態系統）、相關技術人才儲備等。上面涉及到Spark的許多部署模式，究竟哪種模式好這個很難說，需要根據你的需求，如果你只是測試Spark Application，你可以選擇local模式。而如果你數據量不是很多，Standalone 是個不錯的選擇。當你需要統一管理集群資源（Hadoop、Spark等），那么你可以選擇Yarn或者mesos，但是這樣維護成本就會變高。
· 從對比上看，mesos似乎是Spark更好的選擇，也是被官方推薦的
· 但如果你同時運行hadoop和Spark,從兼容性上考慮，Yarn是更好的選擇。 · 如果你不僅運行了hadoop，spark。還在資源管理上運行了docker，Mesos更加通用。
· Standalone對於小規模計算集群更適合！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spring boot單元測試之十三:用mockmvc測試文件下載(spring boot 2.4.4) spring boot單元測試之十五:用mockmvc測試返回異步結果的controller(spring boot 2.4.4) Spark安裝 spring boot單元測試之十六:junit5:用@Timeout注解判斷測試運行是否超時(spring boot 2.4.4) Spark測試題 Spark SQL 1.3測試 Spark學習（一） -- Spark安裝及簡介 Spark安裝與部署 Spark 安裝教程 Spark的安裝及配置