一 部署本地spark環境
解壓下載的文件,假設解壓 目錄為:D:\Spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量,同時新建SPARK_HOME變量,變量值為:D:\spark-1.6.0-bin-hadoop2.6
1.3 Hadoop相關包的安裝
spark是基於hadoop之上的,運行過程中會調用相關hadoop庫,如果沒配置相關hadoop運行環境,會提示相關出錯信息,雖然也不影響運行。
去下載hadoop 2.6編譯好的包https://www.barik.net/archive/2015/01/19/172716/,我下載的是hadoop-2.6.0.tar.gz,解壓下載的文件夾,將相關庫添加到系統Path變量中:D:\hadoop-2.6.0\bin;同時新建HADOOP_HOME變量,變量值為:D:\hadoop-2.6.0。同時去github上下載一個叫做 winutils 的組件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果沒有hadoop對應的版本(此時版本是 2.6),則去csdn上下載 http://download.csdn.net/detail/luoyepiaoxin/8860033,
我的做法是把CSDN這個壓縮包里的所有文件都復制到 hadoop_home的bin目錄下
二 Python環境
Spark提供了2個交互式shell, 一個是pyspark(基於python), 一個是spark_shell(基於Scala). 這兩個環境其實是並列的, 並沒有相互依賴關系, 所以如果僅僅是使用pyspark交互環境, 而不使用spark-shell的話, 甚至連scala都不需要安裝.
2.1 下載並安裝Anaconda
anaconda是一個集成了python解釋器和大多數python庫的系統,安裝anaconda 后可以不用再安裝python和pandas numpy等這些組件了。下載地址是 https://www.continuum.io/downloads。將python加到path環境變量中
三 啟動pyspark驗證
在windows下命令行中啟動pyspark,如圖:
四 在pycharm中配置開發環境
4.1 配置Pycharm
打開PyCharm,創建一個Project。然后選擇“Run” ->“Edit Configurations”
-
SPARK_HOME:Spark安裝目錄
-
PYTHONPATH:Spark安裝目錄下的Python目錄
4.2 測試程序
先測試環境是否正確,代碼如下:
import os import sys # Path for spark source folder os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6" # Append pyspark to Python Path sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python") try: from pyspark import SparkContext from pyspark import SparkConf print ("Successfully imported Spark Modules") except ImportError as e: print ("Can not import Spark Modules", e) sys.exit(1)


測試程序代碼來源於 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8
轉原博客地址:http://blog.csdn.net/huangxia73/article/details/51372557
注意:
可能會報沒有 py4j ( 它是python用來連接java的中間件)
可以用命令安裝:pip install py4j