pyspark 安裝配置【linux && win】

本文轉載自查看原文 2018-07-24 15:43 884 Python

一、windows 安裝
1、下載spark
   http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 

2、配置spark 環境變量
set SPARK_HOME=d:\spark2.3.1
set PATH=%SPARK_HOME%\bin;%PATH%

3、安裝python的pyspark模塊
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

4、下載安裝hadoop 或者 組件
1）下載hadoop軟件包，並配置環境變量
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

2）下載hadoop-common-2.2.0-bin-master.zip（自己百度） 並配置環境變量
下載后是文件名是hadoop-common-2.2.0-bin-master.zip,隨便解壓到一個目錄,設置HADOOP_HOME環境變量，指向 d:\hadoop (解壓后的下載文件), 並將HADOOP_HOME加到系統變量PATH中
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

二、linux 環境
1、下載spark
    wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 
    tar -zxvf  spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 環境變量
vi ~/.bash_profile
#將以下代碼添加到文件中
export SPARK_HOME=/tools/spark2.3.1
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 

3、安裝python的pyspark模塊
   pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 


注釋：
1、如果想在python項目中使用spark 功能，python開發環境除了安裝pyspark 模塊外，還需要同時安裝spark軟件包才能正常使用。
2、linux 環境只需要安裝jdk、spark、pyspark（python模塊）即可；windows 環境還需要額外安裝hadoop組件，否則運行報錯。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark和pyspark的配置安裝 Maven安裝配置【WIN10】 WIN10 Docker安裝配置 linux上安裝配置vsftpd Linux上安裝配置Keepalived linux 安裝配置zerotier Dell XPS 13 （9360）安裝配置 ubuntu 16.04 實現 win10 & Linux雙系統 Linux下NDK的安裝配置 Linux安裝配置go運行環境 linux 安裝配置內網穿透