在mac下搭建pyspark需要安裝的有:
- 1.JAVA JDK
- 2.Scala
- 3.apache-spark
- 4.Hadoop(可選)
- 5.pyspark
安裝上面幾個可以選擇去官網下載安裝包,解壓后再自行配置環境變量。也可以選擇使用brew進行安裝,比較方便的一種安裝方式以下介紹brew的安裝方式
如果你的電腦上沒有安裝brew的話,你只需在終端要執行以下步驟:
-
- 安裝brew
/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"
- 2.使用brew安裝所需依賴
brew install scala
brew install apache-spark
brew install hadoop
- 3.安裝完畢之后可以選擇配置環境變量
使用vim ~/.bash_profile進入環境變量配置文件以設置環境變量
具體如下:
# HomeBrew
export HOMEBREW_BOTTLE_DOMAIN=https://mirrors.tuna.tsinghua.edu.cn/homebrew-bottles
export PATH="/usr/local/bin:$PATH"
export PATH="/usr/local/sbin:$PATH"
# HomeBrew END
#Scala
SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
# Scala END
# Hadoop
HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
# Hadoop END
# spark
export SPARK_PATH="/usr/local/Cellar/apache-spark/3.0.0"
export PATH="$SPARK_PATH/bin:$PATH"
# Spark End
- 4.使虛擬環境生效
source ~/.bash_profile```
-5. 最后進行安裝pyspark就OK啦,使用:
```shell
pip install pyspark
-6. 然后打開jupyter notebook
在文件的最上面添加以下代碼,目的是尋找並創建sparksession對象,以便調用spark進行計算。
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SparkSession
# 初始化spark會話
spark = SparkSession.builder.getOrCreate()
然后就可以愉快的使用pyspark了