Linux 下spark安裝

本文轉載自查看原文 2017-12-05 18:12 2180 安裝過程

一.安裝前提：

1.java環境（jdk1.8）

2.scala環境（2.0）

3.python 環境（3.5）：注如果使用pyspark的話，這個才是必須的。

二、spark安裝

在官網下載安裝包：http://spark.apache.org/downloads.html

創建並進入目錄：/usr/software/spark目錄下

cd /usr/software/spark
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

解壓安裝包：

tar -xf    spark-***-bin-hadoop**.tgz(對應着你下載的版本號)

更新profile文件:

sudo vi ~/etc/profile

在profile文件中配置spark的環境變量

#SET SPARK_HOME
export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7  
export PATH=$SPARK_HOME/bin:$PATH

注：路徑 SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的

  spark-2.2.0-bin-hadoop2.7 是解壓后的目錄

三、運行pyspark

進入spark安裝位置, 然后進入spark中的 bin 文件夾

cd  /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin
pyspark

若是想用python程序直接啟動pyspark的話，需要在/etc/profile文件中配置如下：

# python can call pyspark directly
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

此時已配置好。

四：注意事項

自己當時安裝時，出現了一個java.notfoundclass的異常，這個是配置問題。導致無法啟動pyspark。

解決方法：

在/etc/host文件中綁定主機名和主機地址

主機名：127.0.0.1

主機地址：10.70.31.100 root@xxx后的XXX

問題的解決地址：https://stackoverflow.com/questions/23353477/trouble-installing-pyspark

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Tool】Linux下的Spark安裝及使用 Spark本地安裝及Linux下偽分布式搭建 Mac下安裝Spark開發環境(Linux系統可參照) windows下安裝spark Docker 下安裝 Spark Windows下安裝Spark spark在windows下的安裝 Linux安裝Spark Spark環境搭建（下）——Spark安裝 spark windows環境下spark安裝和運行(1)