現象:STORM UI中發現bolt中有failed,異常日志拋異常read time out
業務場景:storm讀寫redis。
查看redis日志發現,正常情況下 每隔2小時都會有超時的異常拋出來,拋出異常的 redis機器有多台。
分析慢日志:
1、看命令數和value大小:找到其中一台redis,看命令數,只要在10W tps以下都不算大,看慢的命令是否有大value,發現並不大(只看了其中一個,其他沒看)
2、看連接數在3K以下 並不高
3、看網卡流量,平均比較高
問題定位:多個項目共用一個redis集群,導致redis網卡流量居高不下,而redis是多線程接收命令,單線程處理命令,即使一個命令的value並不大,可能因為等待執行的命令較多,導致當前的命令處理變慢!
正常的redis網卡流量應該像下面這樣好看
后續發現其他問題,虛機所在物理機上多台虛機丟包