PySpark環境搭建

本文轉載自查看原文 2020-03-28 20:05 2408 Spark

PySpark環境搭建需要以下的安裝包或者工具：

這里不詳細說明Anaconda、JDK的安裝與配置過程，主要說明與spark相關內容，提供的安裝包：

鏈接：https://pan.baidu.com/s/15NBgNWCGxIQ3tA_vLLMOww
提取碼：sx81

下載后：

　　將其進行解壓，注意的是hadoop與spark這樣的包無法在windows上進行運行，所以引入hadooponwindows-master包，首先我們需要對解壓后的hadoop文件夾中的biN目錄進行覆蓋，使用hadooponwindows-master中的bin目錄進行覆蓋。

（1）拷貝

將hadooponwindows-master中的bin目錄進行拷貝。

（2）覆蓋

將hadoop中的bin目錄進行替換

（3）系統環境變量

這里不要忘記系統環境變量的配置

加入到path中：

spark需要配置一下系統環境變量，與上面基本一樣：

加入到path中：

利用anaconda新建一個虛擬環境：

conda  create -n pyspark_study python=3.5.2

進入虛擬環境安裝py4j包，它是用於Java與Python進行交互使用的包：

(pyspark_study) C:\Users\Administrator>conda install py4j

在上述虛擬環境的sitepackage下新建pyspark.pth文件，里面寫入spark中python的路徑：

（1）查看spark路徑

（2）安裝pyspark擴展包

進入虛擬環境的sitepackage下新建pyspark.pth，並寫入上述路徑：

寫入路徑：

I:\hadoop-pyspark\spark-2.0.2-bin-hadoop2.6\python

這樣環境就配置好了，此時可以在cmd命令行窗口進行啟動pyspark了。

4、啟動pyspark

啟動命令：

C:\Users\Administrator>pyspark

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Mac下搭建pyspark環境 Win10下搭建PySpark環境 PyCharm搭建Spark開發環境 + 第一個pyspark程序 Windows環境部署並調試pyspark(一) idea_pyspark 環境配置 Pyspark spark-submit 集群提交任務以及引入虛擬環境依賴包攻略在交互環境下使用 Pyspark 提交任務給 Spark 解決 : java.sql.SQLException: No suitable driver Spark環境搭建（上）——基礎環境搭建 kafka環境搭建---Windows環境搭建 windows環境上robotframework環境搭建