Spark Streaming的實時詞頻和累加詞頻統計

本文轉載自查看原文 2019-06-05 17:25 564

（注：運行環境是Ubuntu16， pycharm）

1、

按時段統計：獲取scoket端口傳輸的數據（英文數據即可，方便分詞），統計各個時間段內每個單詞出現的次數（每個時間段都分別統計，需要使用的關鍵的DStream成員函數：flatMap, map, reduceByKey）。

checkpoint是設置檢查點，實時統計不需設置，累加統計時需要。

運行結果：

打開terminal ，輸入：nc -lp 9999 回車（9999是端口號，可以是隨意的數字，但是要與第5行代碼設置的端口號一致）

控制台輸出的結果：

2、

累加統計：獲取scoket端口傳輸的數據（英文數據即可，方便分詞），統計歷史時間段內每個單詞累計出現的次數（所有時間段都共一個統計數，需要使用的關鍵的DStream成員函數：flatMap, map, updateStateByKey）。

（導入的包、實例化、設置端口與上一步一致，且要設置檢查點，設置命令看上一步第6行代碼）

運行結果：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark----詞頻統計(一) spark ---詞頻統計(二) Spark基於Java Api 的詞頻統計詞頻統計使用Spark RDD完成詞頻統計 03 使用spark進行詞頻統計【python】從詞頻統計中，認識spark計算文本詞頻統計 jieba庫詞頻統計【Python】詞頻統計