spark入門系列教程二——簡單入門實例


 可以用java、python、scala、R來編寫spark程序,spark是用scala編寫的,所以更推薦使用scala,而且scala開發效率較高,所以示例使用scala開發一個簡單的spark程序。

1.開發環境准備

1.1安裝scala

本示例的開發環境是win10+jdk1.8+scala2.11.8;scala程序需要運行在jvm中,安裝scala前需要先安裝jdk,然后到scala官網https://www.scala-lang.org/download/下載安裝包進行安裝。

1.2安裝hadoop

在清華鏡像站 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/ 下載hadoop的安裝包,下載完成后,解壓,並配置環境變量HADOOP_HOME;

在github上 https://github.com/steveloughran/winutils 下載完整的包,並把對應hadoop/bin目錄下的文件拷到hadoop的bin目錄下。

 

1.3安裝scala插件

目前idea對scala支持比較好,推薦使用idea開發scala程序;使用idea開發scala程序需要先安裝scala的插件;

在http://plugins.jetbrains.com/plugin/1347-scala下載scala的插件后,在settings->plugins里點擊install plugin from disk 安裝插件,下載插件注意先查看自己的idea的版本,要下載與自己idea版本匹配的scala插件;網速好的也可以直接在plugins的倉庫里搜索進行安裝。

2.新建工程

2.1新建maven工程

新建完成后,選中項目名稱,按F4,在Global Libraries里點擊"+"號,添加scala的sdk

 

2.2新建scala目錄

添加完sdk后,在項目src\main目錄下新建scala的目錄;

然后按f4,打開Project Structure,將Moudles里面,將scala目錄設置為source目錄

 

 2.3添加maven依賴

在dependency里加入如下依賴;(spark-core_2.11,這里的2.11指的是spark-core兼容scala的版本為2.11,這里的版本一定要與scala的版本對應,否則編譯會報錯)

3.開發

這里寫一個簡單的wordcount的示例。

3.1准備數據

新建一個txt文本文件,在里面輸入若干單詞,譬如這樣:

 

3.2編碼

新建一個scala object,命名為WordCount;

 

 代碼如下:

 

運行之后的結果:

完整代碼已上傳至GitHub  https://github.com/wuyueming985/sparkdemos,里面注釋詳細,希望能幫助到初學者

到此一個最簡單的spark程序就寫完了,下一篇將簡單地寫一個spark sql實例;此外,spark的RDD、算子等信息,請到官網查看,比較全面,也比較權威。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM