wordcount是spark入門級的demo,不難但是很有趣。接下來我用命令行、scala、Java和python這三種語言來實現單詞統計。
一、使用命令行實現單詞的統計
1.首先touch一個a.txt文本文件
2.加載文本:產生彈性分布式數據集,用sc.textFile()加載文本文件到內存中去,加載到內存之后,整個RDD就是一個數組,就以換行符來做分隔
val rdd1 = sc.textFile("/home/centos/a.txt")
3.對2中產生的數組按空格進行切割,切開之后每個元素就變成了一個數組,[hello,world1]
val rdd2=rdd1.flatMap(line=>line.split(" "))
4.對3中產生的結果進行key,value鍵值對額轉換
val rdd3=rdd2.map(wor=>(word,1))
5.對4中的結果進行聚合
val rdd4=rdd3.reduceByKey(_ + _)
5.查看結果
6.一步操作
7.實現單詞過濾
對於spark-shell這種環境一般只用於測試和調試