還是打算選擇python學習spark編程
因為java寫函數式比較復雜,scala學習曲線比較陡峭,而且sbt和eclipse和maven的結合實在是讓人崩潰,經常找不到主類去執行
python以前沒用過但是名聲在外,可以很方便的進行數據處理
在eclipse中集成pydev插件去編寫python程序已經學習過了
今天使用了一下anaconda集成一起的python開發環境,感覺很不錯
尤其是ipython notebook或者稱為jupyter notebook很方便的進行可視化
但是如何在pyspark中啟動呢
查了一些英文的文獻都是在linux下的配置
ipython profile create spark
會創建一些啟動需要的配置腳本,在腳本中進行設置之后
ipython notebook --profile spark
就可以在pyspark中啟動notebook但是我沒有配成功
后來看到一個簡單的方法
直接在windows環境變量中增加兩個pyspark啟動時需要檢查的變量即可將python解釋環境轉移到jupyter notebook
第一個變量是PYSPARK_DRIVER_PYTHON:jupyter
另外一個變量是PYSPARK_DRIVER_PYTHON_OPTS:notebook
這樣從命令行啟動的話(雙擊啟動不行)就可以打開一個web服務在notebook中的py腳本就可以運行在spark上了
參考文獻:
http://www.cnblogs.com/NaughtyBaby/p/5469469.html
http://blog.csdn.net/sadfasdgaaaasdfa/article/details/47090513
http://blog.cloudera.com/blog/2014/08/how-to-use-ipython-notebook-with-apache-spark/
Spark機器學習 by Nick Pentreath