可以用java、python、scala、R來編寫spark程序,spark是用scala編寫的,所以更推薦使用scala,而且scala開發效率較高,所以示例使用scala開發一個簡單的spark程序。
1.開發環境准備
1.1安裝scala
本示例的開發環境是win10+jdk1.8+scala2.11.8;scala程序需要運行在jvm中,安裝scala前需要先安裝jdk,然后到scala官網https://www.scala-lang.org/download/下載安裝包進行安裝。
1.2安裝hadoop
在清華鏡像站 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/ 下載hadoop的安裝包,下載完成后,解壓,並配置環境變量HADOOP_HOME;

在github上 https://github.com/steveloughran/winutils 下載完整的包,並把對應hadoop/bin目錄下的文件拷到hadoop的bin目錄下。
1.3安裝scala插件
目前idea對scala支持比較好,推薦使用idea開發scala程序;使用idea開發scala程序需要先安裝scala的插件;
在http://plugins.jetbrains.com/plugin/1347-scala下載scala的插件后,在settings->plugins里點擊install plugin from disk 安裝插件,下載插件注意先查看自己的idea的版本,要下載與自己idea版本匹配的scala插件;網速好的也可以直接在plugins的倉庫里搜索進行安裝。

2.新建工程
2.1新建maven工程
新建完成后,選中項目名稱,按F4,在Global Libraries里點擊"+"號,添加scala的sdk

2.2新建scala目錄
添加完sdk后,在項目src\main目錄下新建scala的目錄;

然后按f4,打開Project Structure,將Moudles里面,將scala目錄設置為source目錄

2.3添加maven依賴
在dependency里加入如下依賴;(spark-core_2.11,這里的2.11指的是spark-core兼容scala的版本為2.11,這里的版本一定要與scala的版本對應,否則編譯會報錯)

3.開發
這里寫一個簡單的wordcount的示例。
3.1准備數據
新建一個txt文本文件,在里面輸入若干單詞,譬如這樣:

3.2編碼
新建一個scala object,命名為WordCount;

代碼如下:

運行之后的結果:

完整代碼已上傳至GitHub https://github.com/wuyueming985/sparkdemos,里面注釋詳細,希望能幫助到初學者
到此一個最簡單的spark程序就寫完了,下一篇將簡單地寫一個spark sql實例;此外,spark的RDD、算子等信息,請到官網查看,比較全面,也比較權威。
