PySpark環境搭建


PySpark環境搭建需要以下的安裝包或者工具:

  • Anaconda
  • JDK1.8
  • hadoop2.6
  • hadooponwindows-master
  • spark2.0
  • py4j
  • pyspark擴展包

1、hadoop

這里不詳細說明Anaconda、JDK的安裝與配置過程,主要說明與spark相關內容,提供的安裝包:

鏈接:https://pan.baidu.com/s/15NBgNWCGxIQ3tA_vLLMOww
提取碼:sx81

下載后:

   將其進行解壓,注意的是hadoop與spark這樣的包無法在windows上進行運行,所以引入hadooponwindows-master包,首先我們需要對解壓后的hadoop文件夾中的biN目錄進行覆蓋,使用hadooponwindows-master中的bin目錄進行覆蓋。

(1)拷貝

 將hadooponwindows-master中的bin目錄進行拷貝。

(2)覆蓋

 將hadoop中的bin目錄進行替換

(3)系統環境變量

這里不要忘記系統環境變量的配置

 加入到path中:

2、spark

spark需要配置一下系統環境變量,與上面基本一樣:

 加入到path中:

3、py4j

利用anaconda新建一個虛擬環境:

conda  create -n pyspark_study python=3.5.2

進入虛擬環境安裝py4j包,它是用於Java與Python進行交互使用的包:

(pyspark_study) C:\Users\Administrator>conda install py4j

4、pyspark擴展包

在上述虛擬環境的sitepackage下新建pyspark.pth文件,里面寫入spark中python的路徑:

(1)查看spark路徑

 (2)安裝pyspark擴展包

進入虛擬環境的sitepackage下新建pyspark.pth,並寫入上述路徑:

寫入路徑:

I:\hadoop-pyspark\spark-2.0.2-bin-hadoop2.6\python

這樣環境就配置好了,此時可以在cmd命令行窗口進行啟動pyspark了。

4、啟動pyspark

啟動命令:

C:\Users\Administrator>pyspark

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM