用Spark做去重操作

本文轉載自查看原文 2018-08-03 09:53 3882 python/ spark

 
          #原理很簡單：先是通過flatMap函數，把rdd進行扁平化操作，再用map函數得到(k,1)的樣式，然后再用groupByKey函數，合並value值，就相當於對key進行去重操作，再用keys()函數，取出key 
         
          實驗數據：delcp.txt 
         
          　　　　hello
　　　　hello
　　　　world
　　　　world
　　　　h
　　　　h
　　　　h
　　　　g
　　　　g
　　　　g

          from pyspark import SparkContext 
         
          sc = SparkContext('local','delcp') 
         
          rdd = sc.textFile("file:///usr/local/spark/mycode/TestPackage/delcp.txt") 
         
          delp = rdd.flatMap(lambda line : line.split(" ") 
         
          ).map(lambda a : (a,1)).groupByKey().keys() 
         
          delp.foreach(print)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用Linq 做數據去重 oracle去重操作 Pandas常用操作 - 去重 Spark實戰 - 如何進行選擇去重用bitSet做百萬級ip去重 js使用set做數組去重 Spark2 Dataset去重、差集、交集 Mysql查重去重操作使用mongo進行去重操作 Python 中List 去重操作