用IDEA編寫spark程序,每次運行都要先打成jar包,然后再提交到集群上運行,這樣很麻煩,不方便調試。
我們可以直接在Idea中調試spark程序。
例如下面的WordCount程序:
package cn.edu360.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object ScalaWordCount {
def main(args: Array[String]): Unit = {
//創建spark配置,設置應用程序名字
val conf = new SparkConf().setAppName("ScalaWordCount")
//創建spark執行的入口
val sc = new SparkContext(conf)
//指定以后從哪里讀取數據創建RDD(彈性分布式數據集)
val lines:RDD[String]= sc.textFile(args(0))
//切分壓平
val words:RDD[String] = lines.flatMap(_.split(" "))
//將單詞和1組合
val wordAndOne:RDD[(String,Int)] = words.map((_, 1))
//按Key進行聚合
val reduced:RDD[(String,Int)] = wordAndOne.reduceByKey(_+_)
//排序
val sorted:RDD[(String,Int)] = reduced.sortBy(_._2,false)
//將結果保存到HDFS中
sorted.saveAsTextFile(args(1))
//釋放資源
sc.stop()
}
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
本地調試時,我們要設置一個在本地模式下執行:
在setAppName后面加上.setMaster("local[*]"),然后debug就可以了。

可以再打上一個斷點。
