你所不知道的TIME_WAIT和CLOSE_WAIT


你遇到過TIME_WAIT的問題嗎?

 

我相信很多都遇到過這個問題。一旦有用戶在喊:網絡變慢了。第一件事情就是,netstat -a | grep TIME_WAIT | wc -l 一下。哎呀媽呀,幾千個TIME_WAIT.

 

然后,做的第一件事情就是:打開Google或者Bing,輸入關鍵詞:too many time wait。一定能找到解決方案,而排在最前面或者被很多人到處轉載的解決方案一定是:

 

打開 sysctl.conf 文件,修改以下幾個參數:

  • net.ipv4.tcp_tw_recycle = 1
  • net.ipv4.tcp_tw_reuse = 1
  • net.ipv4.tcp_timestamps = 1

     

    你也會被告知,開啟tw_recylcetw_reuse一定需要timestamps的支持,而且這些配置一般不建議開啟,但是對解決TIME_WAIT很多的問題,有很好的用處。

     

    接下來,你就直接修改了這幾個參數,reload一下,發現,咦,沒幾分鍾,TIME_WAIT的數量真的降低了,也沒發現哪個用戶說有問題,然后就沒有然后了。

     

    做到這一步,相信50%或者更高比例的開發就已經止步了。問題好像解決了,但是,要徹底理解並解決這個問題,可能就沒這么簡單,或者說,還有很長的路要走!

     

    什么是TIME-WAITCLOSE-WAIT?

     

    所謂,要解決問題,就要先理解問題。隨便改兩行代碼,發現bug”沒有了,也不是bug真的沒有了,只是隱藏在更深的地方,你沒有發現,或者以你的知識水平,你無法發現而已。

     

    大家知道,由於socket是全雙工的工作模式,一個socket的關閉,是需要四次握手來完成的。

     

  • 主動關閉連接的一方,調用close()協議層發送FIN
  • 被動關閉的一方收到FIN包后,協議層回復ACK;然后被動關閉的一方,進入CLOSE_WAIT狀態,主動關閉的一方等待對方關閉,則進入FIN_WAIT_2狀態;此時,主動關閉的一方
    等待
    被動關閉一方的應用程序,調用close操作
  • 被動關閉的一方在完成所有數據發送后,調用close()操作;此時,協議層發送FIN包給主動關閉的一方,等待對方的ACK,被動關閉的一方進入LAST_ACK狀態
  • 主動關閉的一方收到FIN包,協議層回復ACK;此時,主動關閉連接的一方,進入TIME_WAIT狀態;而被動關閉的一方,進入CLOSED狀態
  • 等待2MSL時間,主動關閉的一方,結束TIME_WAIT,進入CLOSED狀態

     

    通過上面的一次socket關閉操作,你可以得出以下幾點:

     

  1. 主動關閉連接的一方也就是主動調用socketclose操作的一方,最終會進入TIME_WAIT狀態
  2. 被動關閉連接的一方,有一個中間狀態,即CLOSE_WAIT,因為協議層在等待上層的應用程序,主動調用close操作后才主動關閉這條連接
  3. TIME_WAIT會默認等待2MSL時間后,才最終進入CLOSED狀態;
  4. 在一個連接沒有進入CLOSED狀態之前,這個連接是不能被重用的!

     

    所以,這里憑你的直覺,TIME_WAIT並不可怕(not really,后面講),CLOSE_WAIT才可怕,因為CLOSE_WAIT很多,表示說要么是你的應用程序寫的有問題,沒有合適的關閉socket;要么是說,你的服務器CPU處理不過來(CPU太忙)或者你的應用程序一直睡眠到其它地方(鎖,或者文件I/O等等),你的應用程序獲得不到合適的調度時間,造成你的程序沒法真正的執行close操作。

     

    這里又出現兩個問題:

     

  5. 上文提到的連接重用,那連接到底是個什么概念?
  6. 協議層為什么要設計一個TIME_WAIT狀態?這個狀態為什么默認等待2MSL時間才會進入CLOSED

     

    先解釋清楚這兩個問題,我們再來看,開頭提到的幾個網絡配置究竟有什么用,以及TIME_WAIT的后遺症問題。

     

    Socket連接到底是個什么概念?

     

    大家經常提socket,那么,到底什么是一個socket?其實,socket就是一個
    五元組,包括:

     

  7. IP
  8. 源端口
  9. 目的IP
  10. 目的端口
  11. 類型:TCP or UDP

     

    這個五元組,即標識了一條可用的連接。注意,有很多人把一個socket定義成四元組,也就是
    IP:源端口 + 目的IP:目的端口,這個定義是不正確的。

     

    例如,如果你的本地出口IP180.172.35.150,那么你的瀏覽器在連接某一個Web服務器,例如百度的時候,這條socket連接的四元組可能就是:

     

    [180.172.35.150:45678, tcp, 180.97.33.108:80]

     

    IP為你的出口IP地址 180.172.35.150,源端口為隨機端口 45678,目的IP為百度的某一個負載均衡服務器IP 180.97.33.108,端口為HTTP標准的80端口。

     

    如果這個時候,你再開一個瀏覽器,訪問百度,將會產生一條新的連接:

     

    [180.172.35.150:43678, tcp, 180.97.33.108:80]

     

    這條新的連接的源端口為一個新的隨機端口 43678

     

    如此來看,如果你的本機需要壓測百度,那么,你最多可以創建多少個連接呢?我在文章《雲思路 | 輕松構建千萬級投票系統》里也稍微提過這個問題,沒有閱讀過本文的,可以發送投票系統閱讀。

     

    第二個問題,TIME_WAIT有什么用?

     

    如果我們來做個類比的話,TIME_WAIT的出現,對應的是你的程序里的異常處理,它的出現,就是為了解決網絡的丟包和網絡不穩定所帶來的其他問題:

     

    第一,防止前一個連接【五元組,我們繼續以 180.172.35.150:45678, tcp, 180.97.33.108:80 為例】上延遲的數據包或者丟失重傳的數據包,被后面復用的連接【前一個連接關閉后,此時你再次訪問百度,新的連接可能還是由180.172.35.150:45678, tcp, 180.97.33.108:80 這個五元組來表示,也就是源端口湊巧還是45678】錯誤的接收(異常:數據丟了,或者傳輸太慢了),參見下圖:


  • SEQ=3的數據包丟失,重傳第一次,沒有得到ACK確認
  • 如果沒有TIME_WAIT,或者TIME_WAIT時間非常端,那么關閉的連接【180.172.35.150:45678, tcp, 180.97.33.108:80 的狀態變為了CLOSED,源端口可被再次利用】,馬上被重用【對180.97.33.108:80新建的連接,復用了之前的隨機端口45678】,並連續發送SEQ=1,2 的數據包
  • 此時,前面的連接上的SEQ=3的數據包再次重傳,同時,seq的序號剛好也是3(這個很重要,不然,SEQ的序號對不上,就會RST掉),此時,前面一個連接上的數據被后面的一個連接錯誤的接收

     

    第二,確保連接方能在時間范圍內,關閉自己的連接。其實,也是因為丟包造成的,參見下圖:


  • 主動關閉方關閉了連接,發送了FIN
  • 被動關閉方回復ACK同時也執行關閉動作,發送FIN包;此時,被動關閉的一方進入LAST_ACK狀態
  • 主動關閉的一方回去了ACK,主動關閉一方進入TIME_WAIT狀態;
  • 但是最后的ACK丟失,被動關閉的一方還繼續停留在LAST_ACK狀態
  • 此時,如果沒有TIME_WAIT的存在,或者說,停留在TIME_WAIT上的時間很短,則主動關閉的一方很快就進入了CLOSED狀態,也即是說,如果此時新建一個連接,源隨機端口如果被復用,在connect發送SYN包后,由於被動方仍認為這條連接【五元組】還在等待ACK,但是卻收到了SYN,則被動方會回復RST
  • 造成主動創建連接的一方,由於收到了RST,則連接無法成功

     

    所以,你看到了,TIME_WAIT的存在是很重要的,如果強制忽略TIME_WAIT,還是有很高的機率,造成數據粗亂,或者短暫性的連接失敗。

     

    那么,為什么說,TIME_WAIT狀態會是持續2MSL2倍的max segment lifetime)呢?這個時間可以通過修改內核參數調整嗎?第一,這個2MSL,是RFC 793里定義的,參見RFC的截圖標紅的部分:


    這個定義,更多的是一種保障(IP數據包里的TTL,即數據最多存活的跳數,真正反應的才是數據在網絡上的存活時間),確保最后丟失了ACK,被動關閉的一方再次重發FIN並等待回復的ACK,一來一去兩個來回。內核里,寫死了這個MSL的時間為:30秒(有讀者提醒,RFC里建議的MSL其實是2分鍾,但是很多實現都是30秒),所以TIME_WAIT的即為1分鍾:


    所以,再次回想一下前面的問題,如果一條連接,即使在四次握手關閉了,由於TIME_WAIT的存在,這個連接,在1分鍾之內,也無法再次被復用,那么,如果你用一台機器做壓測的客戶端,你一分鍾能發送多少並發連接請求?如果這台是一個負載均衡服務器,一台負載均衡服務器,一分鍾可以有多少個連接同時訪問后端的服務器呢?

     

    TIME_WAIT很多,可怕嗎?

     

    如果你通過 ss -tan state time-wait | wc -l 發現,系統中有很多TIME_WAIT,很多人都會緊張。多少算多呢?幾百幾千?如果是這個量級,其實真的沒必要緊張。第一,這個量級,因為TIME_WAIT所占用的內存很少很少;因為記錄和尋找可用的local port所消耗的CPU也基本可以忽略。

     

    會占用內存嗎?當然!任何你可以看到的數據,內核里都需要有相關的數據結構來保存這個數據啊。一條Socket處於TIME_WAIT狀態,它也是一條存在socket,內核里也需要有保持它的數據:

  1. 內核里有保存所有連接的一個hash table,這個hash table里面既包含TIME_WAIT狀態的連接,也包含其他狀態的連接。主要用於有新的數據到來的時候,從這個hash table里快速找到這條連接。不同的內核對這個hash table的大小設置不同,你可以通過dmesg命令去找到你的內核設置的大小:


  2. 還有一個hash table用來保存所有的bound ports,主要用於可以快速的找到一個可用的端口或者隨機端口:


     

    由於內核需要保存這些數據,必然,會占用一定的內存。

     

    會消耗CPU嗎?當然!每次找到一個隨機端口,還是需要遍歷一遍bound ports的吧,這必然需要一些CPU時間。

     

    TIME_WAIT很多,既占內存又消耗CPU,這也是為什么很多人,看到TIME_WAIT很多,就蠢蠢欲動的想去干掉他們。其實,如果你再進一步去研究,1萬條TIME_WAIT的連接,也就多消耗1M左右的內存,對現代的很多服務器,已經不算什么了。至於CPU,能減少它當然更好,但是不至於因為1萬多個hash item就擔憂。

     

    如果,你真的想去調優,還是需要搞清楚別人的調優建議,以及調優參數背后的意義!

     

    TIME_WAIT調優,你必須理解的幾個調優參數

     

    在具體的圖例之前,我們還是先解析一下相關的幾個參數存在的意義。

     

    net.ipv4.tcp_timestamps

     

    RFC 1323 TCP Reliability一節里,引入了timestampTCP option,兩個4字節的時間戳字段,其中第一個4字節字段用來保存發送該數據包的時間,第二個4字節字段用來保存最近一次接收對方發送到數據的時間。有了這兩個時間字段,也就有了后續優化的余地。

     

    tcp_tw_reuse tcp_tw_recycle就依賴這些時間字段。

     

    net.ipv4.tcp_tw_reuse

     

    字面意思,reuse TIME_WAIT狀態的連接。

     

    時刻記住一條socket連接,就是那個五元組,出現TIME_WAIT狀態的連接,一定出現在主動關閉連接的一方。所以,當主動關閉連接的一方,再次向對方發起連接請求的時候(例如,客戶端關閉連接,客戶端再次連接服務端,此時可以復用了;負載均衡服務器,主動關閉后端的連接,當有新的HTTP請求,負載均衡服務器再次連接后端服務器,此時也可以復用),可以復用TIME_WAIT狀態的連接。

     

    通過字面解釋,以及例子說明,你看到了,tcp_tw_reuse應用的場景:某一方,需要不斷的通過短連接連接其他服務器,總是自己先關閉連接(TIME_WAIT在自己這方),關閉后又不斷的重新連接對方。

     

    那 么,當連接被復用了之后,延遲或者重發的數據包到達,新的連接怎么判斷,到達的數據是屬於復用后的連接,還是復用前的連接呢?那就需要依賴前面提到的兩個 時間字段了。復用連接后,這條連接的時間被更新為當前的時間,當延遲的數據達到,延遲數據的時間是小於新連接的時間,所以,內核可以通過時間判斷出,延遲 的數據可以安全的丟棄掉了。

     

    這個配置,依賴於連接雙方,同時對timestamps的支持。同時,這個配置,僅僅影響outbound連接,即做為客戶端的角色,連接服務端[connect(dest_ip, dest_port)]時復用TIME_WAITsocket

     

    net.ipv4.tcp_tw_recycle

     

    字面意思,銷毀掉 TIME_WAIT

     

    當開啟了這個配置后,內核會快速的回收處於TIME_WAIT狀態的socket連接。多快?不再是2MSL,而是一個RTOretransmission timeout,數據包重傳的timeout時間)的時間,這個時間根據RTT動態計算出來,但是遠小於2MSL

     

    有了這個配置,還是需要保障
    丟失重傳或者延遲的數據包,不會被新的連接(注意,這里不再是復用了,而是之前處於TIME_WAIT狀態的連接已經被destroy掉了,新的連接,剛好是和某一個被destroy掉的連接使用了相同的五元組而已)所錯誤的接收。在啟用該配置,當一個socket連接進入TIME_WAIT狀態后,內核里會記錄包括該socket連接對應的五元組中的對方IP等在內的一些統計數據,當然也包括從該對方IP所接收到的最近的一次數據包時間。當有新的數據包到達,只要時間晚於內核記錄的這個時間,數據包都會被統統的丟掉。

     

    這個配置,依賴於連接雙方對timestamps的支持。同時,這個配置,主要影響到了inbound的連接(outbound的連接也有影響,但是不是復用),即做為服務端角色,客戶端連進來,服務端主動關閉了連接,TIME_WAIT狀態的socket處於服務端,服務端快速的回收該狀態的連接。

     

    由此,如果客戶端處於NAT的網絡(多個客戶端,同一個IP出口的網絡環境),如果配置了tw_recycle,就可能在一個RTO的時間內,只能有一個客戶端和自己連接成功(不同的客戶端發包的時間不一致,造成服務端直接把數據包丟棄掉)

     

    我盡量嘗試用文字解釋清楚,但是,來點案例和圖示,應該有助於我們徹底理解。

     

    我們來看這樣一個網絡情況:


  3. 客戶端IP地址為:180.172.35.150,我們可以認為是瀏覽器
  4. 負載均衡有兩個IP,外網IP地址為 115.29.253.156,內網地址為10.162.74.10;外網地址監聽80端口
  5. 負載均衡背后有兩台Web服務器,一台IP地址為 10.162.74.43,監聽80端口;另一台為 10.162.74.44,監聽 80 端口
  6. Web服務器會連接數據服務器,IP地址為 10.162.74.45,監聽 3306 端口

     

    這種簡單的架構下,我們來看看,在不同的情況下,我們今天談論的tw_reuse/tw_recycle對網絡連接的影響。

     

    先做個假定:

  7. 客戶端通過HTTP/1.1連接負載均衡,也就是說,HTTP協議投Connectionkeep-alive,所以我們假定,客戶端

    負載均衡服務器
    socket連接,客戶端會斷開連接,所以,TIME_WAIT出現在客戶端
  8. Web服務器和MySQL服務器的連接,我們假定,Web服務器上的程序在連接結束的時候,調用close操作關閉socket資源連接,所以,TIME_WAIT出現在 Web 服務器端。

     

    那么,在這種假定下:

  9. Web服務器上,肯定可以配置開啟的配置:tcp_tw_reuse;如果Web服務器有很多連向DB服務器的連接,可以保證socket連接的復用。
  10. 那么,負載均衡服務器和Web服務器,誰先關閉連接,則決定了我們怎么配置tcp_tw_reuse/tcp_tw_recycle

     

    方案一:負載均衡服務器
    首先關閉連接
     

     

    在這種情況下,因為負載均衡服務器對Web服務器的連接,TIME_WAIT大都出現在負載均衡服務器上,所以,在負載均衡服務器上的配置:

  • net.ipv4.tcp_tw_reuse = 1 //盡量復用連接
  • net.ipv4.tcp_tw_recycle = 0 //不能保證客戶端不在NAT的網絡啊

     

    Web服務器上的配置為:

  • net.ipv4.tcp_tw_reuse = 1 //這個配置主要影響的是Web服務器到DB服務器的連接復用
  • net.ipv4.tcp_tw_recycle
    設置成10都沒有任何意義。想一想,在負載均衡和它的連接中,它是服務端,但是TIME_WAIT出現在負載均衡服務器上;它和DB的連接,它是客戶端,recycle對它並沒有什么影響,關鍵是reuse

     

     

    方案二:Web服務器首先關閉來自負載均衡服務器的連接

     

    在這種情況下,Web服務器變成TIME_WAIT的重災區。負載均衡對Web服務器的連接,由Web服務器首先關閉連接,TIME_WAIT出現在Web服務器上;Web服務器對DB服務器的連接,由Web服務器關閉連接,TIME_WAIT也出現在它身上,此時,負載均衡服務器上的配置:

  • net.ipv4.tcp_tw_reuse0 或者 1 都行,都沒有實際意義
  • net.ipv4.tcp_tw_recycle=0 //一定是關閉recycle

    Web服務器上的配置:

  • net.ipv4.tcp_tw_reuse = 1 //這個配置主要影響的是Web服務器到DB服務器的連接復用
  • net.ipv4.tcp_tw_recycle=1 //由於在負載均衡和Web服務器之間並沒有NAT的網絡,可以考慮開啟recycle,加速由於負載均衡和Web服務器之間的連接造成的大量TIME_WAIT

     

    回答幾個大家提到的幾個問題

     

    1. 請問我們所說連接池可以復用連接,是不是意味着,需要等到上個連接time wait結束后才能再次使用?

    所謂連接池復用,復用的一定是活躍的連接,所謂活躍,第一表明連接池里的連接都是ESTABLISHED的,第二,連接池做為上層應用,會有定時的心跳去保持連接的活躍性。既然連接都是活躍的,那就不存在有TIME_WAIT的概念了,在上篇里也有提到,TIME_WAIT是在主動關閉連接的一方,在關閉連接后才進入的狀態。既然已經關閉了,那么這條連接肯定已經不在連接池里面了,即被連接池釋放了。

     

    2. 想請問下,作為負載均衡的機器隨機端口使用完的情況下大量time_wait,不調整你文字里說的那三個參數,有其他的更好的方案嗎?

    第一,隨機端口使用完,你可以通過調整/etc/sysctl.conf下的net.ipv4.ip_local_port_range配置,至少修改成 net.ipv4.ip_local_port_range=1024 65535,保證你的負載均衡服務器至少可以使用6萬個隨機端口,也即可以有6萬的反向代理到后端的連接,可以支持每秒1000的並發(想一想,因為TIME_WAIT狀態會持續1分鍾后消失,所以一分鍾最多有6萬,每秒1000);如果這么多端口都使用完了,也證明你應該加服務器了,或者,你的負載均衡服務器需要配置多個IP地址,或者,你的后端服務器需要監聽更多的端口和配置更多的IP(想一下socket的五元組)

    第二,大量的TIME_WAIT,多大量?如果是幾千個,其實不用擔心,因為這個內存和CPU的消耗有一些,但是是可以忽略的。

    第三,如果真的量很大,上萬上萬的那種,可以考慮,讓后端的服務器主動關閉連接,如果后端服務器沒有外網的連接只有負載均衡服務器的連接(主要是沒有NAT網絡的連接),可以在后端服務器上配置tw_recycle,然后同時,在負載均衡服務器上,配置tw_reuse

     

    3. 如果想深入的學習一下網絡方面的知識,有什么推薦的?

    學習網絡比學一門編程語言很多。所謂難,其實,是因為需要花很多的時間投入。我自己不算精通,只能說入門和理解。基本書可以推薦:《TCP/IP 協議詳解》,必讀;《TCP/IP高效編程:改善網絡程序的44個技巧》,必讀;《Unix環境高級編程》,必讀;《Unix網絡編程:卷一》,我只讀過卷一;另外,還需要熟悉一下網絡工具,tcpdump以及wireshark,我的notes里有一個一站式學習Wiresharkhttps://github.com/dafang/notebook/issues/114,也值得一讀。有了這些積累,可能就是一些實踐以及碎片化的學習和積累了。

     

    寫在最后

     

    這篇文章我斷斷續續寫了兩天,內容找了多個地方去驗證,包括看到Vincent Bernat的一篇文章以及Vincent在多個地方和別人的討論。期間,我也花了一些時間和Vincent探討了幾個我沒在tcp源碼里翻找到的有疑問的地方。

     

    我力求比散布在網上的文章做到准確並盡量整理的清晰一些。但是,也難免會

    有疏漏或者有錯誤的地方,高手看到可以隨時指正,並和我討論,大家一起研究!

     

    感謝您閱讀。

     

    原文鏈接


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM