scala 編寫wordCount

本文轉載自查看原文 2017-03-06 23:23 4549 spark

加載文件

scala> var f1=sc.textFile("/tmp/dataTest/followers.txt")

scala> f1.flatMap(x=>x.split("-")).map((_,1)).collect //每個數字以'-'分割，並數字為key，給每個key賦值1
res10: Array[(String, Int)] = Array((2,1), (1,1), (4,1), (1,1), (1,1), (2,1), (6,1), (3,1), (7,1), (3,1), (7,1), (6,1), (6,1), (7,1), (3,1), (7,1))

reduceByKey(_+_).collect 將key相同元素合並（4出現一次，7出現4次，6出現3次，2出現2次，3出現3次，1出現3次）

scala> f1.flatMap(x=>x.split("-")).map((_,1)).reduceByKey(_+_).collect
res12: Array[(String, Int)] = Array((4,1), (7,4), (6,3), (2,2), (3,3), (1,3))

這個方法也是同樣效果

scala> f1.flatMap(x=>x.split("-")).map((_,1)).reduceByKey((x,y)=>x+y).collect

res18: Array[(String, Int)] = Array((4,1), (7,4), (6,3), (2,2), (3,3), (1,3))

對出現的次數進行排序

sortByKey

scala> var resText=f1.flatMap(x=>x.split("-")).map((_,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))
resText: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[39] at map at <console>:26

對出現的次數進行排序，所以要先將元素的第二個元組和第一個元組互換位置 map(x=>(x._2,x._1))，這樣出現的次數就成了key,然后再對key進行排序sortByKey(false)

再對排序后的結果，再一次的對他們的元組進行互換位置（次數，單詞）換后（單詞，次數） map(x=>(x._2,x._1))

互換位置也可以使用下面方式，

例

map{case (x._1, x._2) => (x._2, x._1)}.sortByKey(false)

false:從大到小降序

true：小小到大升序

將結果保存到hdfs

scala> resText.saveAsTextFile("/tmp/out/res")

查看結果

[root@node4 node4]# hdfs dfs -cat /tmp/out/res/part-00000
(7,4)
(6,3)
(3,3)
(1,3)
(2,2)
(4,1)
[root@node4 node4]#

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 flink學習-使用IDEA+SCALA編寫WordCount scala簡單入門_wordCount scala學習（3）-----wordcount【sparksession】編寫Spark的WordCount程序並提交到集群運行[含scala和java兩個版本] 用IDEA編寫spark的WordCount Spark：用Scala和Java實現WordCount Spark 用Scala和Java分別實現wordcount Intellij IDEA 2017 通過scala工程運行wordcount IDEA調試scala報錯：WordCount is already defined as object WordCount object WordCount { 在IDEA中編寫Spark的WordCount程序