目錄
安裝jdk
安裝Scala IDE for Eclipse
配置Spark
配置Hadoop
創建Maven工程
Scala代碼
條目7
條目8
條目9
安裝jdk |
要求安裝jdk1.8或以上版本。
安裝Scala IDE for Eclipse |
無需額外安裝scala,這個IDE里面已經集成了。
官方下載:http://scala-ide.org/download/sdk.html
配置Spark |
下載Spark,我下載的版本如圖所示
官方下載:http://spark.apache.org/downloads.html
配置環境變量
變量名:SPARK_HOME 變量值:D:\spark (不能有空格)
添加到Path
配置Hadoop |
無需安裝完整的Hadoop,但需要hadoop.dll,winutils.exe等文件。根據下載的Spark版本,下載相應版本的hadoop2.7.1。
鏈接:https://pan.baidu.com/s/1jHRu9oE 密碼:wdf9
配置環境變量
添加到Path
重啟計算機!!!環境變量才生效!!!
創建Maven工程 |
方法一:
maven project
org.scala-tools.archetypes
scala-archetype-simple
1.2
點擊finish后,會自動下載依賴,稍等片刻
改為
修改pom文件
在修改pom文件 加入需要的依賴,便可以運行spark代碼。在方法二提供的項目中有pom文件可供參考
方法二:
創建Maven工程可以快速引入項目需要的jar包。pom.xml文件里包含了一些重要的配置信息。這里提供一個可用的Maven工程:
鏈接:https://pan.baidu.com/s/1c3244ow 密碼:brwb
導入Maven工程:
可以先將我提供的工程拷貝到workspace,然后引入
引入后,會自動下載一些jar包,需要等待幾分鍾
下圖說明jar包下載完畢
報錯:
更換一下scala的依賴版本:
運行wordCount.scala程序
Scala代碼 |
package com.itmorn.ml import org.apache.spark.{SparkContext, SparkConf} object wordCount { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("wordCount") //創建環境變量 val sc = new SparkContext(conf) //創建環境變量實例 val data = sc.textFile("data/wc.txt") //讀取文件 data.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println) //word計數 } }
import org.apache.spark.sql.SparkSession import org.apache.log4j.{Level, Logger} object xgboostTest { Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .master("local") .appName("SparkSessionZipsExample") .enableHiveSupport() .getOrCreate() val line = spark.sparkContext.textFile("wc") line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println) } }
條目7 |
。
條目8 |
。