之前一直使用VNC在遠程集群上進行Spark程序開發,但是網絡的不穩定以及集群時常升級讓人頭疼。在這里我在自己的Mac上
搭建單機Spark開發環境,作為學習開發已經足夠。Linux系統用戶也可以參考。
一、本機環境
Macbook pro retina with 8G memory
二、准備工作
JDK 1.6.05
Scala 11.4
擊第4項的spark-1.2.0-bin- hadoop1.tgz直接下載即可。在Spark下載界面下載Spark 1.2.0。我在Mac上並沒有使用hdfs(可根據個人需求選擇性安裝),選擇Hadoop1.X版本,最后點
三、配置環境
首先解壓Spark壓縮包:
tar -zxvf spark-1.2.0-bin-hadoop1.tgz
然后進行系統變量配置:
sudo vim /etc/profile
配置環境變量如下:
配置好之后進入解壓后的Spark目錄下的conf目錄,執行如下命令
cp spark-env.sh.template spark-env.sh
修改spark-env.sh中的內容,加入如下配置:
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=4g
進行本機SSH配置,在主目錄下輸入如下命令:
ssh-keygen –t rsa –P ''
然后一直按回車直到結束,接着輸入命令:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
最后需要做的一件事是在System Preferences->Sharing中選中Remote Login選項(對於Linux系統可以忽略此步驟直接看第四步)
此時可以使用ssh locahost命令測試SSH免密碼通訊是否配置成功。
四、運行Spark
1.啟動Spark
首先進入Spark目錄中的sbin子目錄運行如下腳本啟動Spark:
./start-all.sh
輸入 jps 命令查看Spark是否運行:
可以看到Master 和 Worker進城都已經啟動
2.使用spark shell 進行測試
進去Spark目錄下的bin子目錄運行如下腳本啟動Spark shell:
spark-shell
當看到如下界面的時候你已經成功了:
恭喜你,繼續享受Spark吧。
(by老楊,轉載請注明出處)