2020寒假学习记录（11）——实验4-2

本文转载自查看原文 2020-02-11 16:13 1051 Spack学习

二、编写独立应用程序实现数据去重

对于两个输入文件A和B，编写spark独立应用程序。对两个文件进行合并，并剔除其中重复的内容。

输入文件A的样例如下：
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 z
输入文件B的样例如下：
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根据输入的文件A和B合并得到的输出文件C的样例如下：
20170101 x
20170101 y
20170102 y

20170103 x

20170104 y
20170104 z
20170105 y
20170105 z
20170106 z

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object app{
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("RemDup")
        val sc = new SparkContext(conf)
        val dataFile ="file:///home/hadoop/77/a.txt,file:///home/hadoop/77/b.txt"
        val data = sc.textFile(dataFile,2)
        val da = data.distinct()
        da.foreach(println)
da.saveAsTextFile("/home/hadoop/c.txt")
println("文件合并完成！")
 
}
}

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 2020寒假学习记录（5）——Scala实验2-3统计学生成绩 2020寒假学习总结一 2020寒假生活学习日记（八） BUUCTF-2020寒假刷题记录 2020寒假学习记录（14）——．编程实现将 RDD 转换为 DataFrame 2020寒假学习记录（15）——编程实现利用 DataFrame 读写 MySQL 的数据 2020寒假学习进度笔记10 2020寒假作业(1/2) ELK学习总结（4-2）关于导入数据 2020寒假作业(1/2)