談談 TCP 的 TIME_WAIT

本文轉載自查看原文 2019-04-01 18:07 6337 TCP/ 網絡/ WEB/ TCP/IP/ TIME_WAIT

由來

最近有同事在用 ab 進行服務壓測，到 QPS 瓶頸后懷疑是起壓機的問題，來跟我借測試機，於是我就趁機分析了一波起壓機可能成為壓測瓶頸的可能，除了網絡 I/O、機器性能外，還考慮到了網絡協議的問題。

當然本文的主角並不是壓測，后來分析證明同事果然還是想多了，瓶頸是在服務端。

分析起壓機瓶頸的過程中，對於 TCP TIME_WAIT 狀態的一個猜想引起了我的興趣。由於之前排查問題時，簡單地接觸過這個狀態，但並未深入了解，於是決定抽時間分析一下，拆解一下我的猜想。

轉載隨意，文章會持續修訂，請注明來源地址：https://zhenbianshu.github.io 。

TCP 的狀態轉換

我們都知道 TCP 的三次握手，四次揮手，說來簡單，但在不穩定的物理網絡中，每一個動作都有可能失敗，為了保證數據被有效傳輸，TCP 的具體實現中也加入了很多對這些異常狀況的處理。

狀態分析

先用一張圖來回想一下 TCP 的狀態轉換。

一眼看上去，這么多種狀態，各個方向的連線，讓人感覺有點懵。但細細分析下來，還是有理可循的。

首先，整個圖可以被划分為三個部分，即上半部分建連過程，左下部分主動關閉連接過程和右下部分被動關閉連接過程。

再來看各個部分：建連過程就是我們熟悉的三次握手，只是這張圖上多了一個服務端會存在的 LISTEN 狀態；而主動關閉連接和被動關閉連接，都是四次揮手的過程。

查看連接狀態

在 Linux 上，我們常用 netstat 來查看網絡連接的狀態。當然我們還可以使用更快捷高效的 ss (Socket Statistics) 來替代 netstat。

這兩個工具都會列出此時機器上的 socket 連接的狀態，通過簡單的統計就可以分析出此時服務器的網絡狀態。

TIME_WAIT

定義

我們從上面的圖中可以看出來，當 TCP 連接主動關閉時，都會經過 TIME_WAIT 狀態。而且我們在機器上 curl 一個 url 創建一個 TCP 連接后，使用 ss 等工具可以在一定時長內持續觀察到這個連續處於 TIME_WAIT 狀態。

所以TIME_WAIT 是這么一種狀態：TCP 四次握手結束后，連接雙方都不再交換消息，但主動關閉的一方保持這個連接在一段時間內不可用。

那么，保持這么一個狀態有什么用呢？

原因

上文中提到過，對於復雜的網絡狀態，TCP 的實現提出了多種應對措施，TIME_WAIT 狀態的提出就是為了應對其中一種異常狀況。

為了理解 TIME_WAIT 狀態的必要性，我們先來假設沒有這么一種狀態會導致的問題。暫以 A、B 來代指 TCP 連接的兩端，A 為主動關閉的一端。

四次揮手中，A 發 FIN， B 響應 ACK，B 再發 FIN，A 響應 ACK 實現連接的關閉。而如果 A 響應的 ACK 包丟失，B 會以為 A 沒有收到自己的關閉請求，然后會重試向 A 再發 FIN 包。

如果沒有 TIME_WAIT 狀態，A 不再保存這個連接的信息，收到一個不存在的連接的包，A 會響應 RST 包，導致 B 端異常響應。

此時， TIME_WAIT 是為了保證全雙工的 TCP 連接正常終止。
我們還知道，TCP 下的 IP 層協議是無法保證包傳輸的先后順序的。如果雙方揮手之后，一個網絡四元組（src/dst ip/port）被回收，而此時網絡中還有一個遲到的數據包沒有被 B 接收，A 應用程序又立刻使用了同樣的四元組再創建了一個新的連接后，這個遲到的數據包才到達 B，那么這個數據包就會讓 B 以為是 A 剛發過來的。

此時， TIME_WAIT 的存在是為了保證網絡中迷失的數據包正常過期。

由以上兩個原因，TIME_WAIT 狀態的存在是非常有意義的。

時長的確定

由原因來推實現，TIME_WAIT 狀態的保持時長也就可以理解了。確定 TIME_WAIT 的時長主要考慮上文的第二種情況，保證關閉連接后這個連接在網絡中的所有數據包都過期。

說到過期時間，不得不提另一個概念: 最大分段壽命（MSL, Maximum Segment Lifetime），它表示一個 TCP 分段可以存在於互聯網系統中的最大時間，由 TCP 的實現，超出這個壽命的分片都會被丟棄。

TIME_WAIT 狀態由主動關閉的 A 來保持，那么我們來考慮對於 A 來說，可能接到上一個連接的數據包的最大時長：A 剛發出的數據包，能保持 MSL 時長的壽命，它到了 B 端后，B 端由於關閉連接了，會響應 RST 包，這個 RST 包最長也會在 MSL 時長后到達 A，那么 A 端只要保持 TIME_WAIT 到達 2MS 就能保證網絡中這個連接的包都會消失。

MSL 的時長被 RFC 定義為 2分鍾，但在不同的 unix 實現上，這個值不並確定，我們常用的 centOS 上，它被定義為 30s，我們可以通過 /proc/sys/net/ipv4/tcp_fin_timeout 這個文件查看和修改這個值。

ab 的”奇怪”表現

猜想

由上文，我們知道由於 TIME_WAIT 的存在，每個連接被主動關閉后，這個連接就要保留 2MSL（60s）時長，一個網絡四元組也要被凍結 60s。而我們機器默認可被分配的端口號約有 30000 個（可通過 /proc/sys/net/ipv4/ip_local_port_range文件查看）。

那么如果我們使用 curl 對服務器請求時，作為客戶端，都要使用本機的一個端口號，所有的端口號分配到 60s 內，每秒就要控制在 500 QPS，再多了，系統就無法再分配端口號了。

可是在使用 ab 進行壓測時時，以每秒 4000 的 QPS 運行幾分鍾，起壓機照樣正常工作，使用 ss 查看連接詳情時，發現一個 TIME_WAIT 狀態的連接都沒有。

分析

一開始我以為是 ab 使用了連接復用等技術，仔細查看了 ss 的輸出發現本地端口號一直在變，到底是怎么回事呢？

於是，我在一台測試機啟動了一個簡單的服務，端口號 8090，然后在另一台機器上起壓，並同時用 tcpdump 抓包。

結果發現，第一個 FIN 包都是由服務器發送的，即 ab 不會主動關閉連接。

登上服務器一看，果然，有大量的 TIME_WAIT 狀態的連接。

但是由於服務器監聽的端口會復用，這些 TIME_WAIT 狀態的連接並不會對服務器造成太大影響，只是會占用一些系統資源。

小結

當然，高並發情況下，太多的 TIME_WAIT 也會給服務器造成很大的壓力，畢竟維護這么多 socket 也是要消耗資源的，關於如何解決 TIME_WAIT 過多的問題，可以看 tcp短連接TIME_WAIT問題解決方法大全（1）——高屋建瓴。

多了解原理遇到問題才能更快地找到根源解決，網絡相關的知識還要繼續鞏固啊。

關於本文有什么疑問可以在下面留言交流，如果您覺得本文對您有幫助，歡迎關注我的微博或 GitHub 。您也可以在我的博客REPO 右上角點擊 Watch 並選擇 Releases only 項來 訂閱 我的博客，有新文章發布會第一時間通知您。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TCP漫談之keepalive和time_wait linux tcp中time_wait TCP time_wait為什么持續2MSL TCP/IP TIME_WAIT狀態原理關於tcp中time_wait狀態的4個問題關於TCP狀態TIME_WAIT的理解 TCP連接的TIME_WAIT和CLOSE_WAIT 狀態解說 TCP關閉連接(為什么會能Time_wait,Close_wait?) TCP連接問題之CLOSE_WAIT和TIME_WAIT過多 tcp協議close_wait與time_wait狀態含義