spark入門系列教程二——簡單入門實例

本文轉載自查看原文 2018-11-30 20:08 5157 spark 大數據

　可以用java、python、scala、R來編寫spark程序，spark是用scala編寫的，所以更推薦使用scala，而且scala開發效率較高，所以示例使用scala開發一個簡單的spark程序。

1.開發環境准備

1.1安裝scala

本示例的開發環境是win10+jdk1.8+scala2.11.8；scala程序需要運行在jvm中，安裝scala前需要先安裝jdk，然后到scala官網https://www.scala-lang.org/download/下載安裝包進行安裝。

1.2安裝hadoop

在清華鏡像站 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/ 下載hadoop的安裝包，下載完成后，解壓，並配置環境變量HADOOP_HOME；

在github上 https://github.com/steveloughran/winutils 下載完整的包，並把對應hadoop/bin目錄下的文件拷到hadoop的bin目錄下。

1.3安裝scala插件

目前idea對scala支持比較好，推薦使用idea開發scala程序；使用idea開發scala程序需要先安裝scala的插件；

在http://plugins.jetbrains.com/plugin/1347-scala下載scala的插件后，在settings->plugins里點擊install plugin from disk 安裝插件，下載插件注意先查看自己的idea的版本，要下載與自己idea版本匹配的scala插件；網速好的也可以直接在plugins的倉庫里搜索進行安裝。