Mac 配置Spark環境scala+python版本(Spark1.6.0)


1. 從官網下載Spark安裝包,解壓到自己的安裝目錄下(默認已經安裝好JDK,JDK安裝可自行查找); spark官網:http://spark.apache.org/downloads.html

2. 進入系統命令行界面,進入安裝目錄下,如"/安裝目錄/spark-1.6.0-bin-hadoop-2.6.0 ",輸入命令"./bin/pyspark"驗證pyspark能否運行,再輸入命令“./bin/spark-shell”,查看scala環境能否運行。成功的話會顯示Spark圖形,並能輸入python或scala命令行。如下圖(python版):

 

3. 對於python版,先下載pycharm,點擊完成安裝。新建一個工程,打開Edit configuration,找到Environment variables,點擊后面的編輯框,在變量欄目中依次添加PYTHONPATH,值為spark目錄/python,SPARK_HOMR,值為spark安裝目錄,點ok退出。

 

4. 如果是用python的話還要下載py4j包,用在命令行輸入“easy_install py4j”命令就行。然后進入spark安裝目錄中的python文件夾下,打開lib文件夾,把里面的py4j壓縮包復制到上一級python文件夾下,解壓。

5. 在pycharm中寫好demo,點擊運行即可。demo示例如下:

"""SimpleApp.py"""
from pyspark import SparkContext

logFile = "/Spark/spark-1.6.0-bin-hadoop2.6/README.md" # Should be some file on your system
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

6. 如果用scala環境,那么需要下載IntelliJ IDEA,和Pycharm是同一個公司出品,直接去搜名字去官網下 免費版。在第一次打開時會提示安裝插件,這時候選擇安裝scala插件,spark1.6對應scala2.10版本,大概47M。插件下載好之后就可以新建一個scala工程。

7. 單擊Intellij IDE菜單欄上File選項,選擇Project Structure,在彈出的對話框中單擊左側Libraries,之后單擊中間上方綠色“+”號,添加spark中的lib文件夾下的assembly jar包,點擊應用。

8. 然后從Spark官網上找一個demo,把里面的spark路徑換成自己的。打開Edit configuration,點擊左上角加號,選擇Application,進入設置運行配置的對話框,按照下圖配置,其中Program arguments手動輸入local,然后右鍵選擇main 函數地址,系統會自動添加。VM options 的值是設置單機運行,不設置會報錯。

 

9. 點擊ok完成配置,運行程序即可。

 

 
       


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM