Spark——统计文本中单词出现的次数

本文转载自查看原文 2022-01-25 14:06 1085 Spark

示例一：统计所有单词出现的次数

1、在本地创建文件并上传到hdfs中

#vin data.txt
//将文件上传到hadoop的根目录下
#hdfs dfs -put data.txt  /

2、在spark中，创建一个RDD并读取文件

%spark
var data = sc.textFile("/data.txt")
data.collect

3、将读取到的文本使用flatMap方法（数据流映射）组合split方法拆分为单个单词

//注意：split（""）引号中没有空格是以单个字母的形式拆分
val splitData = data.flatMap(line => line.split(" "))
splitData.collect

4、对每个单词执行映射k-value，k是具体的单词，value都设置为1

var mapData = splitData.map(word => (word,1))
mapData.collect

5、使用reduceByKey（）方法进行聚合累加并输出结果

var reduceData = mapData.reduceByKey(_+_)
reduceData.collect

示例二：统计指定单词出现的次数

//统计本文中"is"出现的次数
data.filter(line => line.contains("is")).count()

示例三：（更复杂的RDD操作）找到文本的一行中最多的单词数量

data.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

tip：对于大型数据，可以将数据先加入缓存

例如：

data.cache()
data.count()

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 linux系统中统计文本中单词出现的次数统计英文文本中每个单词的出现次数 python统计文本中每个单词出现的次数编写一个程序，统计在一段文本中单词的出现次数，然后按照单词的字典序显示这些单词以及它们对应的次数。 Linux统计文件中单词出现的次数【Python&练习题】统计文本中，单词出现的次数 Perl-统计文本中各个单词出现的次数（NVDIA2019笔试） Python 基础 - 统计文本里单词的个数以及出现的次数 java统计文本中单词出现的个数统计文件中单词出现频率最高的10个以及他们出现的次数