數據分兩類,一類是靜態處理,多做批量處理,屬於OLAP,一類是流式數據,多做實時處理,屬於OLTP。Spark Streaming屬於微批處理,並非真正意義上的實時處理。本節將介紹一個頂級的流處理框架Flink。
1 系統、軟件以及前提約束
- CentOS 7 64 工作站 作者的機子ip是192.168.100.200,請讀者根據自己實際情況設置
- jdk1.8已經安裝並配置環境變量
https://www.jianshu.com/p/826dc5eca7cb - scala已完成安裝
https://www.jianshu.com/p/8384ab76e8d4 - flink-1.2.1-bin-hadoop2-scala_2.10
下載鏈接:https://pan.baidu.com/s/1c_skDYabCRSkS5hRUB6lFQ
已下載flink-1.2.1-bin-hadoop2-scala_2.10.tgz並上傳到/root
提取碼:a00t - 為去除權限對操作的影響,所有操作都以root進行
2 操作
- 1 解壓
# 進入家目錄
cd
# 解壓
tar -xvf flink-1.2.1-bin-hadoop2-scala_2.10.tgz
- 2 啟動
# 進入flink的啟動目錄
cd /root/flink-1.2.1/bin
# 啟動
./start-local.sh
- 3 測試
在瀏覽器中輸入http://192.168.100.200:8081查看flink界面 - 4 運行自帶詞頻統計demo
# 打開一個xshell窗口,登錄,執行nc,監聽8888
nc -lk 8888
# 進入flink啟動目錄
cd /root/flink-1.2.1/bin
# 執行詞頻統計
./flink run /root/flink-1.2.1/examples/streaming/SocketWindowWordCount.jar --port 8888
# 打開一個xshell窗口,登錄,查看日志
cd /root/flink-1.2.1/log
# 查看日志【注意作者的機子名稱為danji,因此日志文件中包含danji】
tail -f flink-root-jobmanager-0-danji.out
在nc窗口輸入字符串,在查看日志窗口就能看到統計的結果。
以上,就是在CentOS7中安裝flink,並且運行自帶詞頻統計的過程。