PySpark 安裝教程使用 Jupyter 作編輯器

本文轉載自查看原文 2020-07-21 16:14 1500 數據分析/ Python

Spark 的安裝並不依賴於安裝 Hadoop。當在本地運行Spark的時候，Hadoop並不是必要條件，但依然在運行spark的時候會有一些錯誤，但你忽略即可，無傷大雅。只有在集群上運行Spark的時候，才需要 Hadoop

環境：Windows 10

安裝分為以下步驟：

Java的安裝（JDK）
Python的安裝（Anaconda)
pyspark的安裝
Jupyter的設置

JDK 的安裝

在JDK官網（OpenJDK, oraclejdk都行）下載安裝包，依次點擊下一步即可。此處是用的OpenJDK，安裝后將 C:\Program Files\AdoptOpenJDK\jdk-14.0.1.7-hotspot\bin 添加進系統的path。

path 的添加步驟是：計算機->右擊->屬性->系統屬性->高級->環境變量->系統變量->找到path

成功的標准是在 powershell 中是否可以識別 java 命令：

java

python 的安裝

此處使用 anaconda , 在官網下載最近安裝包，注意過程中將 conda 的命令添加進入 path 方便使用。

anaconda 安裝成功的標志是可以識別 python 命令， conda 命令。

python

conda

Spark 的安裝

在 spark 官網下載安裝包，名字大概是叫這個： spark-3.0.0-bin-hadoop3.2.tgz，用 7zip 解壓，成為tar，再解壓一次成為文件夾。我解壓到了E:\spark-3.0.0-bin-hadoop3.2\，進入E:\spark-3.0.0-bin-hadoop3.2\bin 將這個路徑添加上path，和上方一樣的步驟。

安裝成功的標志是在powershell中輸入 pyspark 可以識別命令。出現類型下面的圖就行了，不用管上方的錯誤提示。

spark

pyspark 的安裝

先更改conda的源到清華的鏡像，否則慢到抓狂。見這個鏈接： https://www.cnblogs.com/heenhui2016/p/12375305.html

打開一個powershell, 輸入 conda install pyspark, 確認輸入y，等待下載與安裝。

評價是否安裝成功的標准是輸出以下命令沒有報錯：

import pyspark

jupyter 的設置

添加PYSPARK_DRIVER_PYTHON=jupyter到系統變量
添加PYSPARK_DRIVER_PYTHON_OPTS=lab到系統變量

jupyetr_var

注意，我是用 jupyter lab 做編輯器，而不是 jupyter notebook，若是以 notebook 作編輯器，將 PYSPARK_DRIVER_PYTHON_OPTS=notebook 添加到系統變量即可。

成功的標志是運行以下代碼沒有出毛病：

from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")

查看版本和相關信息

sparkversion

如圖中有個 sparkUI 的鏈接，點進去可查看Spark的運行情況等。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python網頁版編輯器jupyter使用教程 PyTorch教程【二】Python編輯器的選擇、安裝及配置（PyCharm、Jupyter）場景編輯器CocosBuilder使用教程在 window 上安裝 pyspark 並使用（集成 jupyter notebook） Python Jupyter 網站編輯器 Jupyter Notebook 編輯器美化 Sublime Text3 作Markdown編輯器配置福昕高級PDF編輯器安裝教程 G6-Editor 編輯器入門使用教程富文本編輯器 tinymce 的安裝與使用

PySpark 安裝教程 使用 Jupyter 作編輯器