參考http://www.powerxing.com/spark-quick-start-guide/#more-291
和
http://www.thebigdata.cn/Hadoop/29516.html
Spark會用到HDFS和YARN。
安裝環境:
ubuntu 14.04 ,64位
hadoop 2.6
1、下載
下載spark-1.6.0-bin-without-hadoop.tgz(我這里安裝發現下載spark-1.6.1-bin-hadoop2.6.tgz的結果是一樣的)
2、解壓縮安裝包
sudo tar -zxf ~/下載/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark # 此處的 hadoop 為你的用戶名
3、重命名spark-env.sh.template文件
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
在上面的文件中加入Spark的環境變量
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
即可在單機上運行spark-shell、spark-submit等。
結束。
另:
1、如果是要跑集群的話,還需要修改hadoop-env.sh文件和slaves文件。
2、我在機器上安裝了scala環境,如下是我的~/.bashrc文件中的環境變量:
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin
export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$PATH
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH