Linux 下spark安裝


一.安裝前提:

1.java環境(jdk1.8)

2.scala環境(2.0)

3.python 環境(3.5)  :注如果使用pyspark的話,這個才是必須的。

二、spark安裝

在官網下載安裝包:http://spark.apache.org/downloads.html

創建並進入目錄:/usr/software/spark目錄下

cd /usr/software/spark
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

解壓安裝包:

tar -xf    spark-***-bin-hadoop**.tgz(對應着你下載的版本號)

更新profile文件:

sudo vi ~/etc/profile

在profile文件中配置spark的環境變量

#SET SPARK_HOME
export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7  
export PATH=$SPARK_HOME/bin:$PATH

注:路徑  SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的

  spark-2.2.0-bin-hadoop2.7 是解壓后的目錄

三、運行pyspark

進入spark安裝位置, 然后進入spark中的 bin 文件夾

cd  /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin
pyspark

若是想用python程序直接啟動pyspark的話,需要在/etc/profile文件中配置如下:

# python can call pyspark directly
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

 

此時已配置好。

四:注意事項

自己當時安裝時,出現了一個java.notfoundclass的異常,這個是配置問題。導致無法啟動pyspark。

解決方法:

在/etc/host文件中綁定主機名和主機地址

主機名:127.0.0.1

主機地址:10.70.31.100 root@xxx后的XXX

問題的解決地址  :https://stackoverflow.com/questions/23353477/trouble-installing-pyspark

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM