1.環境准備
安裝Hadoop-2.7.2
安裝scala-2.11.8
安裝jdk-1.8.0_171
准備安裝包:spark-2.2.2-bin-hadoop2.7.tgz,並解壓至hadoop用戶目錄.
tar zxvf spark-2.2.2-bin-hadoop2.7.tgz
mv spark-2.2.2-bin-hadoop2.7 spark
2.修改配置文件
- .bash_profile
#添加
export SPARK_HOME=/home/hadoop/spark
export PATH=$SPARK_HOME/sbin:$PATH
- spark-env.sh(從spark-env.sh.template拷貝)
#jdk安裝目錄
export JAVA_HOME=/usr/local/jdk1.8.0_171
#scala安裝目錄
export SCALA_HOME=/usr/local/scala-2.11.8
#hadoop安裝目錄
export HADOOP_HOME=/home/hadoop/hadoop
#hadoop配置文件目錄
export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
#master節點ip
export SPARK_MASTER_IP=192.168.163.101
#每個worker節點能夠最大分配給exectors的內存大小
export SPARK_WORKER_MEMORY=1g
#每個worker節點所占有的CPU核數目
export SPARK_WORKER_CORES=1
#每台機器上開啟的worker節點的數目
export SPARK_WORKER_INSTANCES=1
- slaves(從slaves.template拷貝)
centos7-1
centos7-2
centos7-3
修改完成后,將spark目錄拷貝至各節點.
3.啟動
- 啟動hdfs
spark依賴hdfs,yarn可以不啟動.
start-dfs.sh
- 啟動spark
spark/sbin/start-all.sh
- 查看進程
#主節點
Master
#工作節點
Worker
- spark-shell
spark/bin/spark-shell
- 查看spark jobs