准備:
windows環境說明:Python2.7 + pip
spark版本:spark-1.6.1-bin-hadoop2.6
step1:
下載並解壓tar包到自定義的路徑。(下載鏈接 https://d3kbcqa49mib13.cloudfront.net/spark-1.6.1-bin-hadoop2.6.tgz)
step2:
配置 %SPARK_HOME% 環境變量
step3:
拷貝pyspark對應的python工具包到python的安裝路徑下 "%PYTHON%/site-packages/"
step4:
使用PyCharm打開 "%SPARK_HOME%/examples\src\main\python"
step5:
運行pi.py並查看輸出
至此,pyspark入門篇的windows環境搭建就完成了。
注意:
1.運行時若出現“numpy”,“py4j”等依賴包找不到,自行使用pip進行安裝即可($ pip install xxx);
2.當在進行部分模型的訓練與加載出錯時,需要到真實的unix環境進行對應代碼的操作.