一、spark安裝
因為之前安裝過hadoop,所以,在“Choose a package type”后面需要選擇“Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,然后,點擊“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下載即可。Pre-build with user-provided Hadoop: 屬於“Hadoop free”版,這樣,下載到的Spark,可應用到任意Hadoop 版本。

上傳spark軟件包到任意節點上
解壓縮spark軟件包到/usr/local/目錄下
![]()
重命名為spark文件夾
mv spark-2.1.0-bin-without-hadoop/ spark
重命名conf/目錄下spark-env.sh.template為spark-env.sh
cp spark-env.sh.template spark-env.sh
重命名conf/目錄下slaves.template為slaves
mv slaves.template slaves
二、配置spark
編輯conf/spark-env.sh文件,在第一行添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
#上述表示Spark可以把數據存儲到Hadoop分布式文件系統HDFS中,也可以從HDFS中讀取數據。如果沒有配置上面信息,Spark就只能讀寫本地數據,無法讀寫HDFS數據。
export JAVA_HOME=/usr/local/jdk64/jdk1.8.0
編輯conf/slaves文件

三、驗證spark是否安裝成功
在spark目錄中輸入命令驗證spark是否安裝成功
bin/run-example SparkPi
bin/run-example SparkPi 2>&1 | grep "Pi is" #過濾顯示出pi的值

web界面為8080端口

集群模式下shell
pyspark --master spark://master:7077 #python
提交應用
spark-submit
--class <main-class> #需要運行的程序的主類,應用程序的入口點
--master <master-url> #Master URL,下面會有具體解釋
--deploy-mode <deploy-mode> #部署模式
... # other options #其他參數
<application-jar> #應用程序JAR包
[application-arguments] #傳遞給主類的主方法的參數
