安裝需要如下東西:
java
spark
hadoop(版本要與spark的一致,這里都是hadoop2.7)
Anaconda(這個是為了預防python出現api-ms-win-crt-runtime-l1-1-0.dll錯誤,且安裝了vc_redist.2015.exe還無法解決時需要安裝)
Anaconda3-2.4.1-Windows-x86_64.exe
python
pycharm
pycharm-community-2016.1.4.exe
安裝JDK
** 千萬不要用默認路徑Program Files,這個有空格后面會很坑!新建路徑在C:\Java,Java安裝在這里!**
- 新建環境變量名:JAVA_HOME,變量值:C:\Java\jdk1.8.0_11
- 打開PATH,添加變量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
- 新建環境變量名:CLASSPATH,變量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
在 cmd
中輸入 java
出現如下信息就算安裝成功了
安裝spark
在C盤新建Spark
目錄,將其解壓到這個路徑下
- 新建環境變量名:SPARK_HOME,變量值:C:\Spark
- 打開PATH,添加變量值:%SPARK_HOME%\bin
安裝hadoop
在C盤新建Hadoop
目錄,將其解壓到這個路徑下
- 新建環境變量名:HADOOP_HOME,變量值:C:\Hadoop
- 打開PATH,添加變量值:%HADOOP_HOME%\bin
去網站下載Hadoop在Windows下的支持winutils
https://github.com/steveloughran/winutils
根據版本來選擇,這里用的是 hadoop2.7
,所以選擇2.7
的bin
下載下來,將其覆蓋到 C:\Hadoop\bin
修改C:\Hadoop\etc\hadoop下的hadoop-env.cmd為set JAVA_HOME=C:\Java\jdk1.8.0_11
在 cmd
中輸入 hadoop
出現如下信息就算安裝成功了
安裝python
安裝路徑為 C:\Python35
在C盤或者代碼盤新建\tmp\hive路徑,輸入命令
winutils.exe chmod -R 777 C:\tmp\hive
驗證pyspark
cmd輸入pyspark得到如下畫面
配置pycharm
在如下路徑添加環境變量
- JAVA_HOME
- SPARK_HOME
- HADOOP_HOME
Run->Edit Configurations->Environment variables