(1)安裝----anaconda3下配置pyspark【單機】


1、確保已經安裝jdk和anaconda3。【我安裝的jdk為1.8,anaconda的python為3.6】

2、安裝spark,到官網 http://spark.apache.org/downloads.html 上下載,我下載的是spark-2.3.1-bin-hadoop2.7.tgz。

  (1)將上面的壓縮包解壓在一個文件夾下:注意存放的路徑一定不能帶空格,我存放在目錄下E:\programs2\spark\spark-2.3.1-bin-hadoop2.7,然后將其加入環境變量中。

新建:SPARK_HOME = 'E:\programs2\spark\spark-2.3.1-bin-hadoop2.7'

在Path中添加:

%SPARK_HOME%\bin
%SPARK_HOME%\sbin

 (2)配置anaconda的python環境變量:

新建 PYTHONPATH = %SPARK_HOME%\python\lib\py4j-0.10.7-src;%SPARK_HOME%\python\lib\pyspark

(3)將E:\programs2\spark\spark-2.3.1-bin-hadoop2.7\python\pyspark整個文件夾復制到Anaconda3\Lib\site-packages文件夾中。

(4)添加系統環境變量
變量名:PYSPARK_DRIVER_PYTHON;變量值:ipython
變量名:PYSPARK_DRIVER_PYTHON_OPTS;變量值:notebook

3、安裝Hadoop

到官網上下載hadoop-2.7.3.tar.gz,然后解壓縮在E:\programs2\hadoop\hadoop-2.7.3

並且還需winutils.exe,winutils.pdb等,可在https://github.com/srccodes/hadoop-common-2.2.0-bin下載,然后復制到目錄為:E:\programs2\hadoop\hadoop-2.7.3\bin

添加環境變量 HADOOP_HOME = E:\programs2\hadoop\hadoop-2.7.3

在Path中添加:%HADOOP_HOME%\bin;%HADOOP%\sbin

4、確認是否安裝成功

當輸入命令pyspark出現界面時表明spark安裝配置完成了,如果環境變量配置成功的話,直接把jupyter notebook打開。

 

 

參考:https://www.e-learn.cn/content/python/786199


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM