Spark Streaming的實時詞頻和累加詞頻統計


(注:運行環境是Ubuntu16, pycharm)

1、

按時段統計:獲取scoket端口傳輸的數據(英文數據即可,方便分詞),統計各個時間段內每個單詞出現的次數(每個時間段都分別統計,需要使用的關鍵的DStream成員函數:flatMap, map, reduceByKey)。

checkpoint是設置檢查點,實時統計不需設置,累加統計時需要。

運行結果:

打開terminal ,輸入 :nc -lp 9999   回車   (9999是端口號,可以是隨意的數字,但是要與第5行代碼設置的端口號一致)

 

控制台輸出的結果:

 

2、

累加統計:獲取scoket端口傳輸的數據(英文數據即可,方便分詞),統計歷史時間段內每個單詞累計出現的次數(所有時間段都共一個統計數,需要使用的關鍵的DStream成員函數:flatMap, map, updateStateByKey)。

(導入的包、實例化、設置端口與上一步一致,且要設置檢查點,設置命令看上一步第6行代碼)

運行結果:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM