開始下載安裝pyspark

　下載 Apache Spark ，訪問 Apache Spark 官網下載

1、選擇一個 Spark 版本 (Choose a Spark release)

2、選擇軟件包類型 (Choose a package type)

3、點擊下載

4、選擇一個開始下載，只是鏡像位置不一樣而已，內容無差

一般選擇最新版本就行，也就是默認選擇版本

ps：這邊有個我直接下載好的，需要可以直接點擊鏈接下載

5、將你下載得到的 spark-2.4.3-bin-hadoop2.7.tgz 解壓，得到 spark-2.4.3-bin-hadoop2.7

我這邊下載下來的文件名是這樣的，根據實際為准。

將解壓下來的 spark-2.4.3-bin-hadoop2.7 文件夾放到你想放的位置，我這邊是 E:\MyDownloads\pyspark

6 . 從鏈接下載 winutils.exe 並放到你電腦中的 spark-2.4.3-bin-hadoop2.7\bin 文件夾下。

winutils.exe 是用來在windows環境下模擬文件操作的。

7、修改環境變量

添加以下變量到你的環境變量：

　　　　變量名變量值

SPARK_HOME spark-2.4.3-bin-hadoop2.7

HADOOP_HOME spark-2.4.3-bin-hadoop2.7

PYSPARK_DRIVER_PYTHON jupyter

PYSPARK_DRIVER_PYTHON_OPTS notebook
添加 ;E:\MyDownloads\pyspark\spark-2.4.3-bin-hadoop2.7\bin 到 PATH ps:這里的路徑以你的實際為准

此時安裝已經基本完成了

8 、打開 cmd，輸入命令行 spark-shell ，看到如下字樣，說明安裝成功

pyspark 案例實驗一下

打開cmd ，輸入 jupyter notebook 啟動

新建個python文件，然后

輸入以下代碼，點運行

代碼：

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
    raise ValueErrorError('spark環境沒有配置好')

　　接着輸入以下代碼，點運行

sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.7-src.zip'))
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

這樣說明pyspark引入成功了！

報錯處理：

如果出現無法加載 pyspark ，提示錯誤：No module named 'pyspark' 。

原因是： Anaconda 的環境變量中沒有加入 pyspark 。

解決方案：將目錄 spark-2.4.3-bin-hadoop2.7\python 中 spark 文件夾復制放入目錄 Anaconda3\Lib\site-packages 中。（你安裝Anaconda的地方）

創建RDD實例試驗

myRDD = sc.parallelize(range(6), 3)
print(myRDD.collect())
print(myRDD.count())

自此，安裝pyspark 成功結束，歡迎指教，歡迎交流討論

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 jupyter notebook的安裝與使用 jupyter notebook的安裝與使用 Jupyter notebook安裝與使用如何在Windows上的Jupyter Notebook中安裝和運行PySpark pyspark 中啟動 jupyter notebook jupyter notebook + pyspark 環境搭建詳解 jupyter notebook 集成 spark 環境安裝 Jupyter notebook 安裝，初步使用 pycharm集成Jupyter Notebook 在windows下安裝Jupyter Notebook的安裝和使用

在 window 上安裝 pyspark 並使用（ 集成 jupyter notebook）

開始下載安裝pyspark

pyspark 案例實驗一下

免責聲明！

在 window 上安裝 pyspark 並使用（集成 jupyter notebook）