2020寒假學習記錄（11）——實驗4-2

本文轉載自查看原文 2020-02-11 16:13 1051 Spack學習

二、編寫獨立應用程序實現數據去重

對於兩個輸入文件A和B，編寫spark獨立應用程序。對兩個文件進行合並，並剔除其中重復的內容。

輸入文件A的樣例如下：
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 z
輸入文件B的樣例如下：
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根據輸入的文件A和B合並得到的輸出文件C的樣例如下：
20170101 x
20170101 y
20170102 y

20170103 x

20170104 y
20170104 z
20170105 y
20170105 z
20170106 z

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object app{
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("RemDup")
        val sc = new SparkContext(conf)
        val dataFile ="file:///home/hadoop/77/a.txt,file:///home/hadoop/77/b.txt"
        val data = sc.textFile(dataFile,2)
        val da = data.distinct()
        da.foreach(println)
da.saveAsTextFile("/home/hadoop/c.txt")
println("文件合並完成！")
 
}
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 2020寒假學習總結一 BUUCTF-2020寒假刷題記錄 2020寒假學習記錄（14）——．編程實現將 RDD 轉換為 DataFrame 2020寒假學習記錄（15）——編程實現利用 DataFrame 讀寫 MySQL 的數據 2020寒假作業(1/2) 2020寒假作業(2/2) 2020年寒假假期總結0112 [總結]2020年2月 OI學習/刷題記錄 ROS2學習之旅（11）——記錄和回放數據 2020軟件工程實踐寒假作業1