Windows下Spark單機環境配置


1、 環境配置

a)  java環境配置:

JDK版本為1.7,64位;

環境變量配置如下:

JAVA_HOME為JDK安裝路徑,例如D:\software\workSoftware\JAVA

在path中添加“%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;”

在CLASSPATH中添加“.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;”

b)  scala環境配置

scala版本為2.10,因為Spark 1.6.0用的是這個版本;

SCALA_HOME為scala安裝路徑,例如D:\software\workSoftware\Scala

在path中添加“%scala_Home%\bin;%scala_Home%\jre\bin;”

在CLASSPATH中添加“.;%scala_Home%\bin;%scala_Home%\lib\dt.jar;%scala_Home%\lib\tools.jar.;”

c)   Hadoop下載和配置

Hadoop版本為2.6.0 or upper,我的是2.6.3

下載地址:http://apache.fayea.com/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

下載后解壓

另下載一個:winutils.exe,這個百度既有;

下載后,把winutils.exe放在bin目錄下;

配置 HADOOP_HOME,為解壓地址,例如:“D:\software\workSoftware\hadoop-2.6.3”

在path中添加““%HADOOP_HOME\bin%;”

d)  Spark下載和配置

下載頁面:http://spark.apache.org/downloads.html

Spark release選擇1.6.0

package type是:Pre-built for Hadoop 2.6 and later

我選擇的mirror地址:http://apache.fayea.com/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz

下載后解壓

e)  Scala IDE

然后,如果你有Scala編輯器的話,就可以愉快的去玩耍;我使用的是IntelliJ IDEA 15.0,自行安裝一個scala的插件。

2、 第一個Spark程序

a)  新建一個scala的項目,添加Spark目錄下\lib\ spark-assembly-1.6.0-hadoop2.6.0.jar到項目依賴的jar包;

b)  在src文件夾下新建一個scala script文件,測試你的第一個Spark程序吧

 

 

 1 package com.iclick
 2 /**
 3   * Created by Shawn_Liu on 2016/3/4.
 4   */
 5 
 6 import org.apache.log4j.{Level, Logger}
 7 import org.apache.spark.{SparkContext, SparkConf}
 8 import org.apache.spark.mllib.regression.LinearRegressionWithSGD
 9 import org.apache.spark.mllib.regression.LabeledPoint
10 import org.apache.spark.mllib.linalg.Vectors
11 import  org.apache.spark.sql.SQLContext
12 object WordCount {
13   def main(args: Array[String]) {
14     // 屏蔽不必要的日志顯示終端上
15     Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
16     Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
17     val conf = new SparkConf().setAppName("wordcount").setMaster("local[4]")
18     val sc = new SparkContext(conf)
19     val sqlContext = new SQLContext(sc)
20     val  data=sc.textFile("D:\\Download\\wordcount.txt")
21     data.map(word=>(word,1)).reduceByKey(_+_).foreach(println)
22     println("-----------------分割線--------")
23     data.map(_.toUpperCase()).map(word=>(word,1)).reduceByKey(_+_).foreach(println)
24   }
25 }

 

 

為了運行以上代碼,我在D:\Download\下新建了一個文本文件wordcount.txt,輸入了以下內容:

java

c++

c

SAS

sas

scala

python

PYHTHON

JAVA

java

Java

 

 

最終運行結果如下:

(c++,1)

(scala,1)

(sas,1)

(python,1)

(SAS,1)

(JAVA,1)

(c,1)

(JAva,1)

(java,2)

(PYHTHON,1)

-----------------分割線--------

(C++,1)

(C,1)

(SAS,2)

(SCALA,1)

(JAVA,4)

(PYTHON,1)

(PYHTHON,1)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM