起因
有一天生產環境的API發現大部分都無法鏈接,查日志發現是redis報錯,主要的錯誤信息為 ERR max number of clients reached
通過命令info clients
查詢,發現連接數超高
# Clients
connected_clients:9793
client_recent_max_input_buffer:2
client_recent_max_output_buffer:0
blocked_clients:0
由於redis默認連接數最大值為10000,導致無法連接redis而出現錯誤。
之后用 client list 導出結果,發現鏈接的是 900+,屬於正常的連接數。
使用 `config get timeout 命令查看連接超時時間
1) "timeout"
2) "0"
在redis的官方文檔有介紹
Close the connection after a client is idle for N seconds (0 to disable)
當設置為0時,超時的連接在N秒后會釋放。(0關閉該功能)
檢查集群
集群狀態正常。
目前線上的環境是 3主3從
114 連接數一直維持在 9400多
115 和 116 鏈接數在 800 和 900 左右
疑問
本想導出所有連接,查看是那台機器的占用的鏈接數多
CLIENT LIST #獲取客戶端列表
CLIENT SETNAME #設置當前連接點redis的名稱
CLIENT GETNAME #查看當前連接的名稱
CLIENT KILL ip:port #殺死指定連接
通過 client list 可以直接在 控制台查看,但是內容太多不好分辨。
試用命令: "client list" > list.txt 不能導出,用程序導出,能看到連接數只有 900 多個。最后確認活動鏈接數為 900 多個。
解決
第一步
發現114機器的 Redis server_log 日志為 4.38G,停集群,刪除日志
第二步
設置過期時間,為了釋放 idle 態的鏈接
將鏈接設置為 300 s .
用命令設置:
`CONFIG SET timeout 30 這種方式下次啟動會失效。
在設置了時間之后,redis連接數恢復了正常。
第三步
請求 API 壓測時,發現鏈接增長到900,5 分鍾后鏈接到 126 。初步判斷運行結果正常。
參考資料
http://www.redis.cn/commands/client-list.html
https://www.jianshu.com/p/70f3b68a7fd7