spark復習筆記(3):使用spark實現單詞統計


wordcount是spark入門級的demo,不難但是很有趣。接下來我用命令行、scala、Java和python這三種語言來實現單詞統計。

一、使用命令行實現單詞的統計

    1.首先touch一個a.txt文本文件

    

    2.加載文本:產生彈性分布式數據集,用sc.textFile()加載文本文件到內存中去,加載到內存之后,整個RDD就是一個數組,就以換行符來做分隔

val rdd1 = sc.textFile("/home/centos/a.txt")

    3.對2中產生的數組按空格進行切割,切開之后每個元素就變成了一個數組,[hello,world1]

val rdd2=rdd1.flatMap(line=>line.split(" "))

     4.對3中產生的結果進行key,value鍵值對額轉換

val rdd3=rdd2.map(wor=>(word,1))

    5.對4中的結果進行聚合

val rdd4=rdd3.reduceByKey(_ + _)

    5.查看結果

    6.一步操作

    7.實現單詞過濾

 

對於spark-shell這種環境一般只用於測試和調試

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM