PySpark環境搭建需要以下的安裝包或者工具:
- Anaconda
- JDK1.8
- hadoop2.6
- hadooponwindows-master
- spark2.0
- py4j
- pyspark擴展包
1、hadoop
這里不詳細說明Anaconda、JDK的安裝與配置過程,主要說明與spark相關內容,提供的安裝包:
鏈接:https://pan.baidu.com/s/15NBgNWCGxIQ3tA_vLLMOww
提取碼:sx81
下載后:
將其進行解壓,注意的是hadoop與spark這樣的包無法在windows上進行運行,所以引入hadooponwindows-master包,首先我們需要對解壓后的hadoop文件夾中的biN目錄進行覆蓋,使用hadooponwindows-master中的bin目錄進行覆蓋。
(1)拷貝
將hadooponwindows-master中的bin目錄進行拷貝。
(2)覆蓋
將hadoop中的bin目錄進行替換
(3)系統環境變量
這里不要忘記系統環境變量的配置
加入到path中:
2、spark
spark需要配置一下系統環境變量,與上面基本一樣:
加入到path中:
3、py4j
利用anaconda新建一個虛擬環境:
conda create -n pyspark_study python=3.5.2
進入虛擬環境安裝py4j包,它是用於Java與Python進行交互使用的包:
(pyspark_study) C:\Users\Administrator>conda install py4j
4、pyspark擴展包
在上述虛擬環境的sitepackage下新建pyspark.pth文件,里面寫入spark中python的路徑:
(1)查看spark路徑
(2)安裝pyspark擴展包
進入虛擬環境的sitepackage下新建pyspark.pth,並寫入上述路徑:
寫入路徑:
I:\hadoop-pyspark\spark-2.0.2-bin-hadoop2.6\python
這樣環境就配置好了,此時可以在cmd命令行窗口進行啟動pyspark了。
4、啟動pyspark
啟動命令:
C:\Users\Administrator>pyspark