Redis踩過的坑

本文轉載自查看原文 2017-08-03 22:59 1636 23.性能優化

現象：在使用redis雲提供的redis服務后，經常出現connect timeout：

redis.clients.jedis.exceptions.JedisConnectionException  
java.net.SocketException  
java.net.SocketTimeoutException:connect time out

分析和懷疑：

業務端一般認為redis出現問題，就是redis雲有問題，人的“正常”思維：看別人錯誤容易，發現自己難，扯多了, 出現這個有很多原因：

(1). 網絡原因：比如是否存在跨機房、網絡割接等等。

(2). 慢查詢，因為redis是單線程，如果有慢查詢的話，會阻塞住之后的操作。

(3). value值過大？比如value幾十兆，當然這種情況比較少，其實也可以看做是慢查詢的一種

(4). aof重寫/rdb fork發生？瞬間會堵一下Redis服務器。

查詢原因：

一開始懷疑是網絡問題，但是並未發現問題，觀察各種對比圖表，tcp listenOverFlow和timeout經常周期出現。（贊一下這個監控，我們監控現在還沒有這個層面的）。有關listenOverFlow分析如下：

查看現有的連接數是否大於設置的backlog，如果大於就丟棄，並相應的參數值加1。其中backlog是由程序和系統參數net.core.somaxconn共同設置，當backlog的值大於系統設置的net.core.somaxconn時則取net.core.somaxconn的值，否則取程序設置的backlog值。

這種出錯的方式也被記錄在TcpListenOverflows中（其只記錄了連接個數不足而產生溢出錯誤的次數！）

覺得可能和TCP相關，於是分析了Tcp三次握手：最后一次握手客戶端的請求會進入服務器端的一個隊列（可以認為是下三圖）中，如果這個隊列滿了，就會發生上面的異常。(accept)

(1) TCP三次握手：