1、確保已經安裝jdk和anaconda3。【我安裝的jdk為1.8,anaconda的python為3.6】
2、安裝spark,到官網 http://spark.apache.org/downloads.html 上下載,我下載的是spark-2.3.1-bin-hadoop2.7.tgz。
(1)將上面的壓縮包解壓在一個文件夾下:注意存放的路徑一定不能帶空格,我存放在目錄下E:\programs2\spark\spark-2.3.1-bin-hadoop2.7,然后將其加入環境變量中。
新建:SPARK_HOME = 'E:\programs2\spark\spark-2.3.1-bin-hadoop2.7'
在Path中添加:
%SPARK_HOME%\bin
%SPARK_HOME%\sbin
(2)配置anaconda的python環境變量:
新建 PYTHONPATH = %SPARK_HOME%\python\lib\py4j-0.10.7-src;%SPARK_HOME%\python\lib\pyspark
(3)將E:\programs2\spark\spark-2.3.1-bin-hadoop2.7\python\pyspark整個文件夾復制到Anaconda3\Lib\site-packages文件夾中。
(4)添加系統環境變量
變量名:PYSPARK_DRIVER_PYTHON;變量值:ipython
變量名:PYSPARK_DRIVER_PYTHON_OPTS;變量值:notebook
3、安裝Hadoop
到官網上下載hadoop-2.7.3.tar.gz,然后解壓縮在E:\programs2\hadoop\hadoop-2.7.3
並且還需winutils.exe,winutils.pdb等,可在https://github.com/srccodes/hadoop-common-2.2.0-bin下載,然后復制到目錄為:E:\programs2\hadoop\hadoop-2.7.3\bin
添加環境變量 HADOOP_HOME = E:\programs2\hadoop\hadoop-2.7.3
在Path中添加:%HADOOP_HOME%\bin;%HADOOP%\sbin
4、確認是否安裝成功
當輸入命令pyspark出現界面時表明spark安裝配置完成了,如果環境變量配置成功的話,直接把jupyter notebook打開。
參考:https://www.e-learn.cn/content/python/786199