1. 從官網下載Spark安裝包,解壓到自己的安裝目錄下(默認已經安裝好JDK,JDK安裝可自行查找); spark官網:http://spark.apache.org/downloads.html
2. 進入系統命令行界面,進入安裝目錄下,如"/安裝目錄/spark-1.6.0-bin-hadoop-2.6.0 ",輸入命令"./bin/pyspark"驗證pyspark能否運行,再輸入命令“./bin/spark-shell”,查看scala環境能否運行。成功的話會顯示Spark圖形,並能輸入python或scala命令行。如下圖(python版):

3. 對於python版,先下載pycharm,點擊完成安裝。新建一個工程,打開Edit configuration,找到Environment variables,點擊后面的編輯框,在變量欄目中依次添加PYTHONPATH,值為spark目錄/python,SPARK_HOMR,值為spark安裝目錄,點ok退出。

4. 如果是用python的話還要下載py4j包,用在命令行輸入“easy_install py4j”命令就行。然后進入spark安裝目錄中的python文件夾下,打開lib文件夾,把里面的py4j壓縮包復制到上一級python文件夾下,解壓。
5. 在pycharm中寫好demo,點擊運行即可。demo示例如下:
"""SimpleApp.py"""
from pyspark import SparkContext
logFile = "/Spark/spark-1.6.0-bin-hadoop2.6/README.md" # Should be some file on your system
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
6. 如果用scala環境,那么需要下載IntelliJ IDEA,和Pycharm是同一個公司出品,直接去搜名字去官網下 免費版。在第一次打開時會提示安裝插件,這時候選擇安裝scala插件,spark1.6對應scala2.10版本,大概47M。插件下載好之后就可以新建一個scala工程。
7. 單擊Intellij IDE菜單欄上File選項,選擇Project Structure,在彈出的對話框中單擊左側Libraries,之后單擊中間上方綠色“+”號,添加spark中的lib文件夾下的assembly jar包,點擊應用。
8. 然后從Spark官網上找一個demo,把里面的spark路徑換成自己的。打開Edit configuration,點擊左上角加號,選擇Application,進入設置運行配置的對話框,按照下圖配置,其中Program arguments手動輸入local,然后右鍵選擇main 函數地址,系統會自動添加。VM options 的值是設置單機運行,不設置會報錯。

9. 點擊ok完成配置,運行程序即可。
