1.功能简介
将txt文件中的数据进行数据去重并显示在输出框中
2.txt数据格式
3.源代码
import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object spark01_wordcount { def main(args: Array[String]): Unit = { val sparConf = new SparkConf().setMaster("local").setAppName("WordCount") val sc = new SparkContext(sparConf) val lines:RDD[String] = sc.textFile("filepath") //filepath为txt文件路径 val words:RDD[String]=lines.flatMap(_.split(" ")) //此处为以某个分隔符对每行数据进行切分,我用的是空格也可更改为其他符号如逗号 val afterdeal=words.distinct().collect().mkString(",") //去重操作并将去重结果以逗号为分隔符组成一个字符串 val realwords:Array[String] = afterdeal.split(",") realwords.foreach(println) sc.stop() } }
4.结果截图