線上服務做集群擴容,調整了節點機器配置,在升級完畢之后,發現某些時候請求較慢,或者直接504 timeout 超時,必現情況,點擊幾次都是,且並沒有代表性。
1、檢查istio 日志是否有504 的日志,並查看在哪台node 機器上,看下那台節點機器是否有問題。
2、kubectl get nodes 查看機器節點是否都正常工作。
3、外部代理了一層nginx,查看nginx 錯誤日志。
關鍵點,查看nginx 的進程是否都正常,我們的問題就是nginx 修改了配置,執行了reload 成功,但是進程一直處於is_shutting_down 並未成功殺死,所以某些請求還是打在了舊的節點機器上。
4、所有的都不行,就用重啟大法,重啟ngnix 重啟機器、重新部署,都重做一遍。
學習分享: