PySpark 安裝教程 使用 Jupyter 作編輯器


Spark 的安裝並不依賴於安裝 Hadoop。 當在本地運行Spark的時候,Hadoop並不是必要條件,但依然在運行spark的時候會有一些錯誤,但你忽略即可,無傷大雅。 只有在集群上運行Spark的時候,才需要 Hadoop

環境:Windows 10

安裝分為以下步驟:

  • Java的安裝(JDK)
  • Python的安裝(Anaconda)
  • pyspark的安裝
  • Jupyter的設置

JDK 的安裝

在JDK官網(OpenJDK, oraclejdk都行)下載安裝包,依次點擊下一步即可。此處是用的OpenJDK, 安裝后將 C:\Program Files\AdoptOpenJDK\jdk-14.0.1.7-hotspot\bin 添加進系統的path

path 的添加步驟是: 計算機->右擊->屬性->系統屬性->高級->環境變量->系統變量->找到path

成功的標准是在 powershell 中是否可以識別 java 命令:

java

python 的安裝

此處使用 anaconda , 在官網下載最近安裝包,注意過程中將 conda 的命令添加進入 path 方便使用。

anaconda 安裝成功的標志是可以識別 python 命令, conda 命令。

python

conda

Spark 的安裝

在 spark 官網下載安裝包,名字大概是叫這個: spark-3.0.0-bin-hadoop3.2.tgz,用 7zip 解壓,成為tar,再解壓一次成為文件夾。我解壓到了E:\spark-3.0.0-bin-hadoop3.2\,進入E:\spark-3.0.0-bin-hadoop3.2\bin 將這個路徑添加上path,和上方一樣的步驟。

安裝成功的標志是在powershell中輸入 pyspark 可以識別命令。出現類型下面的圖就行了,不用管上方的錯誤提示。

spark

pyspark 的安裝

先更改conda的源到清華的鏡像,否則慢到抓狂。 見這個鏈接: https://www.cnblogs.com/heenhui2016/p/12375305.html

打開一個powershell, 輸入 conda install pyspark, 確認輸入y,等待下載與安裝。

評價是否安裝成功的標准是輸出以下命令沒有報錯:

import pyspark

jupyter 的設置

  • 添加PYSPARK_DRIVER_PYTHON=jupyter到系統變量
  • 添加PYSPARK_DRIVER_PYTHON_OPTS=lab到系統變量

jupyetr_var

注意,我是用 jupyter lab 做編輯器,而不是 jupyter notebook,若是以 notebook 作編輯器,將 PYSPARK_DRIVER_PYTHON_OPTS=notebook 添加到系統變量即可。

成功的標志是運行以下代碼沒有出毛病:

from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")

查看版本和相關信息

sparkversion

如圖中有個 sparkUI 的鏈接,點進去可查看Spark的運行情況等。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM