提交jar作業到spark上運行

本文轉載自查看原文 2015-07-26 20:22 2710 apache

1.引入spark包：spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目錄下

File-->project structure

2.用IDEA建立一個scala項目，新建一個WordCount的object

3.WordCount代碼如下：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object WordCount {
  def main(args: Array[String]) {
    if (args.length < 1) {
      System.err.println("Usage: <file>")
      System.exit(1)
    }

    val conf = new SparkConf()
    val sc = new SparkContext(conf)
    val line = sc.textFile(args(0))

    line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)

    sc.stop()

  }

}

4.打包jar包:IDEA-->Project Structure-->Artifacts-->點擊+

注意：點擊From modules with dependencies，不是Empty

5.填寫好導出的路徑，我的是放在/home/jiahong/sparkTest目錄

6.啟動spark集群,到http://localhost:8080/查看spark的主節點地址，我的為：spark://jiahong-OptiPlex-7010:7077

7.在終端上次jar包到spark

jiahong@jiahong-OptiPlex-7010:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --master spark://jiahong-OptiPlex-7010:7077 --name spark_scala --class WordCount --executor-memory 1G --total-executor-cores 2 ~/sparkTest/spark_scala.jar /home/jiahong/jia.txt

進入hadoop,然后用spark-submit命令來提交jar包，如果看不懂上面的命令，則可以用spark-submit --help查看幫助

spark://jiahong-OptiPlex-7010:7077 為主節點的地址

--name spark_scala 為導出的jar包的名字

--class WordCount 為單詞計數的object名

--executor-memory 1G --total-executor-cores 2 指定用多少內存執行和，執行的CPU核數是多少

~/sparkTest/spark_scala.jar 為導出的jar包的位置

/home/jiahong/jia.txt 為要WordCount輸入的計算統計詞頻文件位置
9.運行時查看任務狀態地址:
http://192.168.22.7:4040

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark——幾種運行模式與作業提交 Spark學習（四） -- Spark作業提交提交Spark作業遇到的NoSuchMethodError問題總結 Spark作業提交至Yarn上執行的一個異常 Spark架構與作業的提交流程簡介 Spark源碼系列（一）spark-submit提交作業過程 hue通過livy提交spark jar包python文件到spark Spark任務提交jar包依賴解決方案 Spark on Yarn運行時加載的jar包 spark on yarn運行產生jar包沖突問題