(注:運行環境是Ubuntu16, pycharm)
1、
按時段統計:獲取scoket端口傳輸的數據(英文數據即可,方便分詞),統計各個時間段內每個單詞出現的次數(每個時間段都分別統計,需要使用的關鍵的DStream成員函數:flatMap, map, reduceByKey)。
checkpoint是設置檢查點,實時統計不需設置,累加統計時需要。
運行結果:
打開terminal ,輸入 :nc -lp 9999 回車 (9999是端口號,可以是隨意的數字,但是要與第5行代碼設置的端口號一致)
控制台輸出的結果:
2、
累加統計:獲取scoket端口傳輸的數據(英文數據即可,方便分詞),統計歷史時間段內每個單詞累計出現的次數(所有時間段都共一個統計數,需要使用的關鍵的DStream成員函數:flatMap, map, updateStateByKey)。
(導入的包、實例化、設置端口與上一步一致,且要設置檢查點,設置命令看上一步第6行代碼)
運行結果: