Spark Streaming的实时词频和累加词频统计

本文转载自查看原文 2019-06-05 17:25 564

（注：运行环境是Ubuntu16， pycharm）

1、

按时段统计：获取scoket端口传输的数据（英文数据即可，方便分词），统计各个时间段内每个单词出现的次数（每个时间段都分别统计，需要使用的关键的DStream成员函数：flatMap, map, reduceByKey）。

checkpoint是设置检查点，实时统计不需设置，累加统计时需要。

运行结果：

打开terminal ，输入：nc -lp 9999 回车（9999是端口号，可以是随意的数字，但是要与第5行代码设置的端口号一致）

控制台输出的结果：

2、

累加统计：获取scoket端口传输的数据（英文数据即可，方便分词），统计历史时间段内每个单词累计出现的次数（所有时间段都共一个统计数，需要使用的关键的DStream成员函数：flatMap, map, updateStateByKey）。

（导入的包、实例化、设置端口与上一步一致，且要设置检查点，设置命令看上一步第6行代码）

运行结果：

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 spark----词频统计(一) spark ---词频统计(二) Spark基于Java Api 的词频统计词频统计使用Spark RDD完成词频统计 03 使用spark进行词频统计【python】从词频统计中，认识spark计算文本词频统计 jieba库词频统计【Python】词频统计