pyspark 中啟動 jupyter notebook


還是打算選擇python學習spark編程

因為java寫函數式比較復雜,scala學習曲線比較陡峭,而且sbt和eclipse和maven的結合實在是讓人崩潰,經常找不到主類去執行

python以前沒用過但是名聲在外,可以很方便的進行數據處理

在eclipse中集成pydev插件去編寫python程序已經學習過了

今天使用了一下anaconda集成一起的python開發環境,感覺很不錯

尤其是ipython notebook或者稱為jupyter notebook很方便的進行可視化

但是如何在pyspark中啟動呢

查了一些英文的文獻都是在linux下的配置

ipython profile create spark

會創建一些啟動需要的配置腳本,在腳本中進行設置之后

ipython notebook --profile spark

就可以在pyspark中啟動notebook但是我沒有配成功

后來看到一個簡單的方法

直接在windows環境變量中增加兩個pyspark啟動時需要檢查的變量即可將python解釋環境轉移到jupyter notebook

第一個變量是PYSPARK_DRIVER_PYTHON:jupyter

 

另外一個變量是PYSPARK_DRIVER_PYTHON_OPTS:notebook

這樣從命令行啟動的話(雙擊啟動不行)就可以打開一個web服務在notebook中的py腳本就可以運行在spark上了

 

參考文獻:

http://www.cnblogs.com/NaughtyBaby/p/5469469.html
http://blog.csdn.net/sadfasdgaaaasdfa/article/details/47090513
http://blog.cloudera.com/blog/2014/08/how-to-use-ipython-notebook-with-apache-spark/

Spark機器學習 by Nick Pentreath

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM