一、windows 安裝 1、下載spark http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 環境變量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin;%PATH% 3、安裝python的pyspark模塊 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 4、下載安裝hadoop 或者 組件 1)下載hadoop軟件包,並配置環境變量 set HADOOP_HOME=d:\hadoop set PATH=%HADOOP_HOME%\bin;%PATH% 2)下載hadoop-common-2.2.0-bin-master.zip(自己百度) 並配置環境變量 下載后是文件名是hadoop-common-2.2.0-bin-master.zip,隨便解壓到一個目錄,設置HADOOP_HOME環境變量,指向 d:\hadoop (解壓后的下載文件), 並將HADOOP_HOME加到系統變量PATH中 set HADOOP_HOME=d:\hadoop set PATH=%HADOOP_HOME%\bin;%PATH% 二、linux 環境 1、下載spark wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 環境變量 vi ~/.bash_profile #將以下代碼添加到文件中 export SPARK_HOME=/tools/spark2.3.1 export PATH=$SPARK_HOME/bin:$PATH export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 3、安裝python的pyspark模塊 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/
注釋:
1、如果想在python項目中使用spark 功能,python開發環境除了安裝pyspark 模塊外,還需要同時安裝spark軟件包才能正常使用。
2、linux 環境只需要安裝jdk、spark、pyspark(python模塊)即可;windows 環境還需要額外安裝hadoop組件,否則運行報錯。