深入分析HTTP狀態碼502(nginx+php-fpm)


引子

我們的一個web項目,由於新上城市增多,導致訪問量增大,DB壓力增大,作為提供接口的業務方,最近被下游反饋大量請求“502”。

502,bad gateway,一般都是upstream(這里就是php)出錯,對於php,造成502的原因常見的就是腳本執行超過timeout設置時間,或者timeout設置過大,導致php進程長時間不能被釋放,沒有空閑worker進程來接客。我們的項目就是php執行時間設置過短導致的,對於這種情況,可以先適當增大php的執行時間,先保證清除502,優化的事情畢竟要花更多的時間。

控制php執行時間的選項有兩個,在php.ini中 max_execution_time 和php-fpm中 request_terminate_timeout,其中 request_terminate_timeout 可以覆蓋 max_execution_time,所以如果不想改全局的php.ini,那只改php-fpm的配置就可以了。

下邊我就來詳細的分析一下為什么php腳本執行超出設置時間會導致nginx返回502。

先來布景,讓問題復現:

nginx和php分別只啟動一個worker,方便追蹤。

php-fpm的request_terminate_timeout設置為3S。

測試腳本test.php

?
1
2
sleep(20);
echo 'ok' ;

go go go:

在瀏覽器訪問www.v.com/test.php,3S后如期出現...404???what???

出師不利啊,趕緊看看nginx的配置文件

這個location配置是當發生5xx錯誤時跳轉到一個好看點的界面,但是我在/usr/share/nginx/html下並沒有50x.html這個文件。所以搞了個404出來。這不是很影響我判斷問題的准確性?直接注釋掉!再次訪問,等待3S,終於'正常'的界面出來了。

 

環境好了,下邊就上套路,按照web問題的排查套路走一遍,先看看錯誤日志吧:

nginx:

報錯都是 recv() failed (104: Connection reset by peer。

recv時失敗了,連接被重置了。為啥連接被重置了?難道一言不合。

我們在看看php-fpm的錯誤日志:

(注意php-fpm中php_admin_value[error_log]選項指定php的錯誤日志,會覆蓋php.ini中的。但是這里不是看php的錯誤,而是看php-fpm的錯誤。php-fpm的錯誤日志由php-fpm.conf中的error_log選項指定。)

每一次請求都是產生2個WARNING和1個NOTICE:

WARNING:腳本執行超時了,終止了。

WARNING:子進程收到SIGTERM信號退出了。

NOTICE:啟了一個新的子進程(因為我設置的pm.min_spare_servers = 1)

看來如果php的worker進程執行超時,不僅終止腳本執行,而且worker進程也會退出。看來nginx的報錯連接被重置是因為php的worker進程退出了(在TCP連接中一方如果斷掉的話會發送RST給另一方)

通過日志已經可以知道php腳本執行超時,worker子進程退出,導致nginx報錯Connection reset by peer,下邊我們通過strace來看看php和nginx的情況:

php:

1.accept一個nginx的連接請求(socket,bind,listen都在master中完成 ),可以看到nginx的端口是47039,從FD0中讀取數據,就是從標准輸入中,這個是fast-cgi協議規定的。accept之后的已連接描述符是3。

2.從FD3中讀取nginx傳遞過來的數據,fastcgi協議格式,接收了856字節。為什么read5次呢?

因為fastcgi協議數據包是8字節對齊,由包頭和包體組成。並且都是會先發一個request數據包,包含一些請求ID,版本,typpe等信息(包頭包體各占8字節),再發一個params數據包,傳遞get參數和環境變量(包頭8字節,包體變長),最后發送一個沒有包體只有包頭的params數據包,表示參數發送結束(包頭8字節)。所以前3個read用來讀出request包的包頭和包體,還有params包的包頭,第四個read是讀取真正的數據,最后一個read是讀取最后一個params包的包頭。所以nginx傳遞的數據應該是8+8+8+856+8=896字節(和下邊nginx的傳輸bytes能對應上)。注意如果是post方式,還會發送stdin數據包。

3.設置休眠20S,就是php程序中的sleep(20),之后由於進程被終止了,所以后邊就沒啦。strace程序也退出啦。

nginx:

1.accept到瀏覽器的請求,可以看到瀏覽器端的端口是56434,IP是192.168.1.105,已建立連接的FD是3。

2.從FD3中接收數據,HTTP協議。

3.創建一個socket,FD21,用於和php建立連接。

4.連接到FD21,可以看到連接的是本機的9000端口,這里nginx和php-fpm使用IP socket連接方式,nginx和php-fpm部署在一台機器上可以考慮unix domain socket。

5.向FD21寫入數據,fast-cgi協議格式,我們看到寫入的長度是896,和上邊的php接收的長度是對應的。

6.recvfrom函數從FD21中返回 ECONNRESET (Connection reset by peer)

7.向FD9中寫入錯誤信息,可以推斷FD9就是nginx錯誤日志的文件描述符。

8.關閉和FD21的連接。

9.向FD3寫入502 Bad Gateway,就是返回給瀏覽器的信息。

10.向FD8寫入一條訪問日志,可以推斷FD8就是nginx訪問日志的文件描述符。

來驗證一下nginx訪問日志和錯誤日志的推斷。可以看到的確是FD8,FD9,並處於寫入模式。

 

那么在這個過程中整個網絡包的傳輸我們不妨也看一下:

通過tcpdump抓包,用神器看比較方便。

因為只想看nginx和php的通訊,在上邊又知道nginx的端口是47039,可以通過tcp.srcport==47039過濾出對應的包。

可以看到nginx和php-fpm數據交互的過程:47039->9000建立三次握手,接着向9000發送數據,9000回復ACK,3S后9000回復RST。沒毛病。

注意:

SYN,FIN各占一個序列號

ACK,RST不占序列號(28,29兩個包的reqnum和acknum都是相同的)

序列號是每一字節加1(29包發送896字節,同時29包seq為4219146879,30包的ack為4219147775,正好相差896)

RST不需要回復。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM