仔細想來,其實是個非常簡單的問題;開發和運維覺得兩個后端節點跑起來壓力太大了,就擴充了兩個新的后端節點上去,這一加就出問題了,訪問時頁面間歇性丟失,這尼瑪什么情況...想了半天沒思路,查了Nginx的配置,沒發現問題,查詢后端的錯誤日志,也是一頭霧水。
先貼出代理服務器的配置(upstream部分):
upstream api {
server 192.168.1.10:9109;
server 192.168.1.11:9109;
server 192.168.1.12:9109;
server 192.168.1.13:9109;
}
其中1.12和1.13兩個節點是新加上去的,考慮到這樣配置的nginx代理是默認的輪詢訪問,干脆用有故障的服務器的故障日志去篩選,看別的節點上是否有相同的日志,依次查詢完下來,發現只有12節點上有錯誤日志,這就很清晰了,是這個節點故障導致的訪問頁面時間歇性歇菜,干脆先把這個節點踢出去吧。
修改完代理的配置,重啟了nginx服務,終於好了,明天檢查這個節點上的服務,看什么情況造成的節點訪問異常。
總結:如果今后出現類似的比如nginx、lvs等負載均衡的時候,可以考慮查看節點的辦法去判斷哪個節點出問題了,比如錯誤日志;也可以直接使用url訪問測試,看究竟是否可用。這次故障,忘記直接使用url訪問測試故障了,真是事多丟腦子!