五分鍾帶你讀懂 TCP全連接隊列(圖文並茂)


愛生活,愛編碼,微信搜一搜【架構技術專欄】關注這個喜歡分享的地方。
本文 架構技術專欄 已收錄,有各種視頻、資料以及技術文章。

一、問題

今天有個小伙伴跑過來告訴我有個奇怪的問題需要協助下,問題確實也很奇怪。客戶端調用RT比較高並伴隨着間歇性異常Connection reset出現,而服務端CPU 、線程棧等看起來貌似都很正常,而且服務端的RT很短。

這里先說下結果:
因為TCP全連接隊列太小導致的連接被丟棄,因為項目使用Spring Boot 內置的Tomcat,而默認accept-count是100,而這個參數在這里就代表了全連接隊列大小。所以在請求波峰的時候全連接隊列被打滿導致有連接丟棄。所以我們調整server.tomcat.accept-count這個參數解決了問題。

二、半連接隊列和全連接隊列

好了為了知其然知其所以然,從異常信息來看可能是TCP連接出現了什么問題,其中重點就是半連接隊列和全連接隊列。下面就來看看什么是TCP 半連接隊列和全連接隊列,其為什么會出現這種奇怪的現象。

1、TCP 三次握手流程和隊列

TCP三次握手時,Linux內核會維護兩個隊列:

  • 半連接隊列,被稱為SYN隊列
  • 全連接隊列,被稱為 accept隊列

老生常談,還要從大家都熟悉TCP三次握手說起,來看一張圖:
在這里插入圖片描述

1、客戶端發送SYN包,並進入SYN_SENT狀態

2、服務端接收到數據包將相關信息放入半連接隊列(SYN 隊列),並返回SYC+ACK包給客戶端。

3、服務端接收客戶端ACK數據包,這時如果全連接隊列(accept 隊列)沒滿,就會從半連接隊列里面將數據取出來放入全連接隊列,等待應用使用,當隊列已滿就會跟據tcp_abort_on_overflow配置執行策略。

這里半連接隊列(SYN 隊列)和全連接隊列(accept 隊列)就是重點了。

2、全連接隊列查看

當查詢問題的時候,我們就需要查看全連接隊列的狀態。服務端我們可以使用 ss 命令進行查看,ss 命令獲取數據又分為LISTEN 狀態,和非LISTEN 狀態。

LISTEN 狀態下數據:

# -l 顯示正在Listener 的socket
# -n 不解析服務名稱
# -t 只顯示tcp

# Recv-Q 完成三次握手並等待服務端 accept() 的 TCP 全連接總數,
# Send-Q 全連接隊列大小

[root@server ~]#  ss -lnt |grep 6080
State  Recv-Q Send-Q  Local Address:Port   Peer Address:Port
LISTEN     0   100       :::6080                  :::*

非LISTEN 狀態下數據:

# Recv-Q 已收到但未被應用進程讀取的字節數
# Send-Q 已發送但未收到確認的字節數

[root@server ~]#  ss -nt |grep 6080
State  Recv-Q Send-Q  Local Address:Port   Peer Address:Port
ESTAB     0   433       :::6080                  :::*

3、全連接隊列溢出

當有大量請求進入,如果TCP全連接隊列過小的話就會出現全連接隊列溢出,當出現全連接隊列溢出現象的時候,后續的請求就會被丟棄,就會出現服務請求數量上不去的現象。

前面提到在TCP三次握手的最后一步,當全連接隊列已滿就會根據tcp_abort_on_overflow策略進行處理。Linux 可通過 /proc/sys/net/ipv4/tcp_abort_on_overflow 進行配置。

  • 當tcp_abort_on_overflow=0,服務accept 隊列滿了,客戶端發來ack,服務端直接丟棄該ACK,此時服務端處於【syn_rcvd】的狀態,客戶端處於【established】的狀態。在該狀態下會有一個定時器重傳服務端 SYN/ACK 給客戶端(不超過 /proc/sys/net/ipv4/tcp_synack_retries 指定的次數,Linux下默認5)。超過后,服務器不在重傳,后續也不會有任何動作。如果此時客戶端發送數據過來,服務端會返回RST。(這也就是我們的異常原因了)

  • 當tcp_abort_on_overflow=1,服務端accept隊列滿了,客戶端發來ack,服務端直接返回RST通知client,表示廢掉這個握手過程和這個連接,client會報connection reset by peer。

1). 當全連接隊列溢出時,有哪些指標可以說明呢,我們又有哪些有效的查詢手段呢?

命令查詢,我們可以根據TCP 的握手特性來看:

[root@server ~] netstat -s | egrep "listen|LISTEN"
  7102 times the listen queue of a socket overflowed 全連接隊列溢出的次數
  7102 SYNs to LISTEN sockets ignored 表示半連接隊列溢出次數
  
  710 2times表示全連接隊列溢出的次數,隔幾秒查詢一次,如果這個數字一直在遞增,說明全連接隊列出現了溢出的狀態

2). 配置全連接隊列和半連接隊列?

全連接隊列大小取決於backlog 和somaxconn 的最小值,也就是 min(backlog,somaxconn)

  • somaxconn 是Linux內核參數,默認128,可通過/proc/sys/net/core/somaxconn進行配置
  • backlog是 listen(int sockfd,int backlog)函數中的參數backlog,Tomcat 默認100,Nginx 默認511.

半連接隊列的長度可以通過 /proc/sys/net/ipv4/tcp_max_syn_backlog來設置.os層面,只能設一個,由所有程序共享)

3). 查看半連接狀態

半連接,也就是服務端處於SYN_RECV狀態的TCP連接,這種狀態的都在半連接隊列,因此可以使用如下命令進行計算:

#查看半連接隊列
[root@server ~]  netstat -natp | grep SYN_RECV | wc -l
233 #表示半連接狀態的TCP連接有233個

三、總結

通過以上的知識點可以定位到這次事件的原因了,因為Spring Boot tomcat 默認的配置導致應用在啟動時全連接隊列只有默認的100,在流量激增的情況下導致全連接隊列打滿出現了第三次握手數據包被丟棄的現象。

所以總結下:

  • 1、TCP三次握手時,Linux維護了全連接和半連接兩個隊列
  • 2、在全連接隊列滿的時候丟棄策略根據tcp_abort_on_overflow的配置執行
  • 3、全連接隊列大小會取Linux系統配置和應用配置中的最小值
  • 4、Linux 中的backlog 就是我們所說的全連接隊列大小
  • 5、應用部署時記得檢查全連接隊列是否正確配置

backlog配置

  • Tomcat AbstractEndpoint默認參數是100,如果使用獨立Tomcat配置了 server.xml,其實 connector 中 acceptCount 最終是 backlog的值。而使用Spring Boot內置Tomcat記得配置server.tomcat.accept-count參數,否則默認值就是
  • Nginx 配置 server{ listen 8080 default_server backlog=512}
  • Redis 配置redis.conf文件 tcp-backlog 511參數

愛生活,愛編碼,微信搜一搜【架構技術專欄】關注這個喜歡分享的地方。
本文 架構技術專欄 已收錄,有各種視頻、資料以及技術文章。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM