一.安裝前提:
1.java環境(jdk1.8)
2.scala環境(2.0)
3.python 環境(3.5) :注如果使用pyspark的話,這個才是必須的。
二、spark安裝
在官網下載安裝包:http://spark.apache.org/downloads.html
創建並進入目錄:/usr/software/spark目錄下
cd /usr/software/spark wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
解壓安裝包:
tar -xf spark-***-bin-hadoop**.tgz(對應着你下載的版本號)
更新profile文件:
sudo vi ~/etc/profile
在profile文件中配置spark的環境變量
#SET SPARK_HOME export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH
注:路徑 SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的
spark-2.2.0-bin-hadoop2.7 是解壓后的目錄
三、運行pyspark
進入spark安裝位置, 然后進入spark中的 bin 文件夾
cd /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin pyspark
若是想用python程序直接啟動pyspark的話,需要在/etc/profile文件中配置如下:
# python can call pyspark directly export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
此時已配置好。
四:注意事項
自己當時安裝時,出現了一個java.notfoundclass的異常,這個是配置問題。導致無法啟動pyspark。
解決方法:
在/etc/host文件中綁定主機名和主機地址
主機名:127.0.0.1
主機地址:10.70.31.100 root@xxx后的XXX
問題的解決地址 :https://stackoverflow.com/questions/23353477/trouble-installing-pyspark