win7下配置spark


 

1.安裝jdk(配置JAVA_HOME,CLASSPATH,path)

2.安裝scala(配置SCALA_HOME,path)

3.安裝spark

Spark的安裝非常簡單,直接去Download Apache Spark。有兩個步驟:
● 選擇好對應Hadoop版本的Spark版本,如下圖中所示;

 


● 然后點擊下圖中箭頭所指的spark-1.6.2-bin-hadoop2.6.tgz,等待下載結束即可。


這里使用的是Pre-built的版本,意思就是已經編譯了好了,下載來直接用就好,Spark也有源碼可以下載,但是得自己去手動編譯之后才能使用。下載完成后將文件進行解壓(可能需要解壓兩次),最好解壓到一個盤的根目錄下,並重命名為Spark,簡單不易出錯。並且需要注意的是,在Spark的文件目錄路徑名中,不要出現空格,類似於“Program Files”這樣的文件夾名是不被允許的。
解壓后基本上就差不多可以到cmd命令行下運行了。但這個時候每次運行spark-shell(spark的命令行交互窗口)的時候,都需要先cd到Spark的安裝目錄下,比較麻煩,因此可以將Spark的bin目錄添加到系統變量PATH中。例如我這里的Spark的bin目錄路徑為D:\Spark\bin,那么就把這個路徑名添加到系統變量的PATH中即可,方法和JDK安裝過程中的環境變量設置一致,設置完系統變量后,在任意目錄下的cmd命令行中,直接執行spark-shell命令,即可開啟Spark的交互式命令行模式。

4.安裝hadoop

系統變量設置后,就可以在任意當前目錄下的cmd中運行spark-shell,但這個時候很有可能會碰到各種錯誤,這里主要是因為Spark是基於Hadoop的,所以這里也有必要配置一個Hadoop的運行環境。在 Hadoop Releases里可以看到Hadoop的各個歷史版本,這里由於下載的Spark是基於Hadoop 2.6的(在Spark安裝的第一個步驟中,我們選擇的是Pre-built for Hadoop 2.6),我這里選擇2.6.4版本,選擇好相應版本並點擊后,進入詳細的下載頁面,如下圖所示,選擇圖中紅色標記進行下載,這里上面的src版本就是源碼,需要對Hadoop進行更改或者想自己進行編譯的可以下載對應src文件,我這里下載的就是已經編譯好的版本,即圖中的hadoop-2.6.4.tar.gz文件。
 
 下載並解壓到指定目錄,然后到環境變量部分設置HADOOP_HOME為Hadoop的解壓目錄,我這里是F:\Program Files\hadoop,然后再設置該目錄下的bin目錄到系統變量的PATH下,我這里也就是F:\Program Files\hadoop\bin,如果已經添加了HADOOP_HOME系統變量,也可以用%HADOOP_HOME%\bin來指定bin文件夾路徑名。這兩個系統變量設置好后,開啟一個新的cmd,然后直接輸入spark-shell命令。
正常情況下是可以運行成功並進入到Spark的命令行環境下的,但是對於有些用戶可能會遇到空指針的錯誤。這個時候,主要是因為Hadoop的bin目錄下沒有winutils.exe文件的原因造成的。這里的解決辦法是:
  • 去 https://github.com/steveloughran/winutils 選擇你安裝的Hadoop版本號,然后進入到bin目錄下,找到winutils.exe文件,下載方法是點擊winutils.exe文件,進入之后在頁面的右上方部分有一個Download按鈕,點擊下載即可。
  • 下載好winutils.exe后,將這個文件放入到Hadoop的bin目錄下,我這里是F:\Program Files\hadoop\bin。
5.運行spark-shell.cmd
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM