Spark 的安裝並不依賴於安裝 Hadoop。 當在本地運行Spark的時候,Hadoop並不是必要條件,但依然在運行spark的時候會有一些錯誤,但你忽略即可,無傷大雅。 只有在集群上運行Spark的時候,才需要 Hadoop
環境:Windows 10
安裝分為以下步驟:
- Java的安裝(JDK)
- Python的安裝(Anaconda)
- pyspark的安裝
- Jupyter的設置
JDK 的安裝
在JDK官網(OpenJDK, oraclejdk都行)下載安裝包,依次點擊下一步即可。此處是用的OpenJDK, 安裝后將 C:\Program Files\AdoptOpenJDK\jdk-14.0.1.7-hotspot\bin
添加進系統的path
。
path
的添加步驟是: 計算機->右擊->屬性->系統屬性->高級->環境變量->系統變量->找到path
成功的標准是在 powershell 中是否可以識別 java
命令:
python 的安裝
此處使用 anaconda , 在官網下載最近安裝包,注意過程中將 conda 的命令添加進入 path 方便使用。
anaconda 安裝成功的標志是可以識別 python 命令, conda 命令。
Spark 的安裝
在 spark 官網下載安裝包,名字大概是叫這個: spark-3.0.0-bin-hadoop3.2.tgz
,用 7zip 解壓,成為tar,再解壓一次成為文件夾。我解壓到了E:\spark-3.0.0-bin-hadoop3.2\
,進入E:\spark-3.0.0-bin-hadoop3.2\bin
將這個路徑添加上path,和上方一樣的步驟。
安裝成功的標志是在powershell中輸入 pyspark 可以識別命令。出現類型下面的圖就行了,不用管上方的錯誤提示。
pyspark 的安裝
先更改conda的源到清華的鏡像,否則慢到抓狂。 見這個鏈接: https://www.cnblogs.com/heenhui2016/p/12375305.html
打開一個powershell, 輸入 conda install pyspark
, 確認輸入y,等待下載與安裝。
評價是否安裝成功的標准是輸出以下命令沒有報錯:
import pyspark
jupyter 的設置
- 添加
PYSPARK_DRIVER_PYTHON=jupyter
到系統變量 - 添加
PYSPARK_DRIVER_PYTHON_OPTS=lab
到系統變量
注意,我是用
jupyter lab
做編輯器,而不是jupyter notebook
,若是以notebook
作編輯器,將PYSPARK_DRIVER_PYTHON_OPTS=notebook
添加到系統變量即可。
成功的標志是運行以下代碼沒有出毛病:
from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")
查看版本和相關信息
如圖中有個 sparkUI
的鏈接,點進去可查看Spark的運行情況等。