Spark wordcount開發並提交到集群運行

本文轉載自查看原文 2014-07-23 17:53 4155 spark/ Spark

使用的ide是eclipse

package com.luogankun.spark.base

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

/**
 * 統計字符出現次數
 */
object WordCount {
  def main(args: Array[String]) {
    if (args.length < 1) {
      System.err.println("Usage: <file>")
      System.exit(1)
    }

    val conf = new SparkConf()
    val sc = new SparkContext(conf)
    val line = sc.textFile(args(0))

    line.flatMap(_.split("\t")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
    
    sc.stop
  }
}

導出成jar包。

提交到集群運行腳本: WordCount.sh

#!/bin/bash

set -x

cd $SPARK_HOME/bin

spark-submit \
--name WordCount \
--class com.luogankun.spark.base.WordCount \
--master spark://hadoop000:7077 \
--executor-memory 1G \
--total-executor-cores 1 \
/home/spark/lib/spark.jar \
hdfs://hadoop000:8020/hello.txt

執行WordCount.sh腳本

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 編寫Spark的WordCount程序並提交到集群運行[含scala和java兩個版本] Hadoop 用Java編寫MapReduce詞頻統計程序並提交到Hadoop集群運行前端開發 - bootstrapTable編輯列數據並提交到后台 spark學習之IDEA配置spark並wordcount提交集群 git 創建分支並提交到遠程在Spark上運行WordCount程序在idea上運行spark的wordcount hadoop 把mapreduce任務從本地提交到hadoop集群上運行 flink 提交到本地local集群上運行的pom 和代碼提交任務到spark（以wordcount為例）