開發工具之Spark程序開發詳解


一  使用IDEA開發Spark程序

1、打開IDEA的官網地址,地址如下:http://www.jetbrains.com/idea/

 

2、點擊DOWNLOAD,按照自己的需求下載安裝,我們用免費版即可。

 

3、雙擊ideaIU-15.0.2.exe安裝包,點擊Next。

 

4、選擇安裝路徑,點擊Next。

5、可以選擇是否創建桌面快捷方式,然后點擊Next。

 

6、點擊Install。

 

7、安裝過程

 

8、點擊Finish,安裝成功

 

9、雙擊IntelliJ IDEA 15.0.2的圖標,打開IntelliJ IDEA。

10、可以導入自己的設置,沒有就選擇下面的即可,然后點擊OK。

 

11、選擇自己喜歡的風格

  (1) 風格1

 

(2) 風格2

 

12、選擇完風格后,點擊Next Default plugins

 

13、點擊Next Featured plugins

14、點擊Scala Custom Languages 下面的Install

15、安裝過程

16、顯示Installed就代表安裝成功了,然后點擊Start using IntelliJ IDEA。

 

17、點擊Create New Project,創建新工程。

 

18、選擇Scala,點擊Next。

19、填寫Project name和Project location。

20、設置Project SDK,點擊New。

 

21、點擊New打開的小窗口里點擊JDK。

 

22、選擇安裝JDK的路徑,點擊OK

 

23、Project SDK會變成如下面圖所示,是你安裝的JDK版本

 

24、設置Scala SDK,點擊Create。

 

25、選擇這台機器安裝的2.10.x版本,然后點擊OK。

 

26、然后就變成如圖所示,然后點擊Finish。

 

27、出現這個提示,直接點擊OK。

  

28、出現這個窗口,把Show Tips on Startup勾掉,點擊Close即可。

 

29、項目創建成功以后的目錄如下:

 

30、下載spark-1.6.0-bin-hadoop2.6.tgz,解壓spark-1.6.0-bin-hadoop2.6.tgz,解壓以后目錄如下:

 

31、添加Spark的jar依賴,File-> Project Structure -> Libraries,點擊號,選擇Java。

 

32、進入到解壓以后的spark-1.6.0-bin-hadoop2.6的lib目錄下,選擇spark-assembly-1.6.0-hadoop2.6.0.jar,如下圖所示,然后點擊OK。

 

33、點擊OK。

 

34、如下圖所示,然后點擊OK。

 

35、項目會變成如下圖所示。

 

36、右擊src -> New -> Package。

 

37、填寫好包名,點擊OK。

 

38、右擊com.dt.spark -> New -> Scala Class。

 

39、Name填寫WordCount,Kind里選擇Object,點擊OK。

 

40、WordCount里添加main方法,如下圖。

 

41、開始編寫Spark WordCount項目,創建SparkConf,設置conf的參數,設置應用程序名稱,使用local模式執行,圖里的第1步。

 

42、創建SparkContext對象,圖里第2步。

 

43、讀取本地文件,圖里的第3步。

 

44、將每一行的字符串拆分成單個的單詞,圖里的第4.1步。

 

45、在單詞拆分的基礎上對每個單詞實例計數為1,也就是word => (word, 1),圖里4.2步。

 

46、每個單詞實例計數為1的基礎之上統計每個單詞在文件中出現的總次數,圖里4.3步。

 

47、打印計算結果,圖里的第5步。

 

48、關閉SparkContext,圖里的第6步。

 

49、運行開發的項目,右擊WorkCount.scala文件 -> Run ‘Word Count’。

 

50、看見這樣的結果,就代表成功了。

 

二  使用Scala IDE 開發Spark程序

1、打開Scala IDE for Eclipse的官網,官網地址:http://scala-ide.org/

 

2、點擊Download IDE。

 

3、下載對應的版本。

 

4、scala-SDK-4.3.0-vfinal-2.11-win32.win32.x86_64.zip為例,解壓縮。

 

5、雙擊打開eclipse.exe。

 

6、選擇一個工作目錄,然后點擊OK。

 

7、在打開的窗口中,File -> New -> Scala Project。

 

8、寫好Project name,點擊Next。

  

9、點擊Finish。

 

10、修改JRE System Library。

 

11、右擊JRE System Library -> Build Path -> Configure Build Path...。

 

12、點擊JRE System Library -> Edit。

 

13、選擇Alternate JRE -> Installed JREs...。

 

14、點擊Add...。

 

15、選擇Standard VM,點擊Next。

 

16、點擊Directory...,選擇本地文件安裝JDK的安裝目錄,點擊Finish。

 

17、選擇剛才加入的JDK,點擊OK。

 

18、下拉列表里選擇剛才加入的JDK,點擊Finish。

 

19、點擊OK。

 

20、設置Scala library container。

 

21、項目上有右擊 -> Properties。

 

22、打開的窗口點擊Scala Compiler。

 

23、Use Project Settings打鈎,打開Scala Installation下拉列表,選擇Latest 2.10 bundle(dynamic),點擊OK。

 

24、點擊OK。

 

25、下載spark-1.6.0-bin-hadoop2.6.tgz,解壓spark-1.6.0-bin-hadoop2.6.tgz,解壓以后目錄如下:

 

26、添加Spark的jar依賴,項目右擊 -> Build Path -> Configure Build Path...。

 

27、點擊Libraries -> Add External JARs...。

 

28、選擇lib目錄下的spark-assembly-1.6.0-hadoop2.6.0.jar文件,點擊打開。

 

29、點擊OK。

 

30、項目里創建包,右擊src -> New -> Package。

  

31、填寫好Name,點擊Finish。

 

32、創建Scala Object,右擊com.dt.spark -> New -> Scala Object。

 

33、填寫好Name,點擊Finish。

 

34、開始編寫WordCount,寫Title。

 

35、添加main方法。

 

36、創建SparkConf對象,圖里的第1步。

 

37、創建SparkContext對象,圖里的第2步。

 

38、讀取本地文件,圖里的第3步

 

39、將每一行的字符串拆分成單個的單詞,圖里的第4.1步。

 

40、在單詞拆分的基礎上對每個單詞實例計數為1,也就是word => (word, 1),圖里4.2步。

 

41、每個單詞實例計數為1的基礎之上統計每個單詞在文件中出現的總次數,圖里4.3步。

 

42、打印計算結果,圖里的第5步。

 

43、關閉SparkContext,圖里的第6步。

 

44、運行項目,右擊WorkCount.scala文件 -> Run As -> Scala Application。

  

45、看見這樣的結果,就代表成功了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM