spark復習筆記(3)：使用spark實現單詞統計

本文轉載自查看原文 2018-10-25 10:43 876 spark

wordcount是spark入門級的demo，不難但是很有趣。接下來我用命令行、scala、Java和python這三種語言來實現單詞統計。

一、使用命令行實現單詞的統計

　　　　1.首先touch一個a.txt文本文件

　　　　2.加載文本：產生彈性分布式數據集，用sc.textFile()加載文本文件到內存中去，加載到內存之后，整個RDD就是一個數組，就以換行符來做分隔

val rdd1 = sc.textFile("/home/centos/a.txt")

　　　　3.對2中產生的數組按空格進行切割，切開之后每個元素就變成了一個數組，[hello,world1]

val rdd2=rdd1.flatMap(line=>line.split(" "))

　　　　4.對3中產生的結果進行key,value鍵值對額轉換

val rdd3=rdd2.map(wor=>(word,1))

　　　　5.對4中的結果進行聚合

val rdd4=rdd3.reduceByKey(_ + _)

　　　　5.查看結果

　　　　6.一步操作

　　　　7.實現單詞過濾

對於spark-shell這種環境一般只用於測試和調試

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark入門（三）--Spark經典的單詞統計 Spark學習筆記1——第一個Spark程序：單詞數統計 Spark——統計文本中單詞出現的次數 spark jdk8 單詞統計示例【Spark】Spark-shell案例——單詞計數統計 Spark學習筆記-使用Spark History Server 03 使用spark進行詞頻統計【python】使用Spark RDD完成詞頻統計【Spark】【復習】Spark入門考前概念相關題復習 spark之scala程序開發(本地運行模式)：單詞出現次數統計