非常抱歉,今天 10:30-10:45 左右由於 docker swarm 集群節點出現問題,造成除博客之外的站點出現訪問異常,由此給您帶來很大的麻煩,請您諒解。
故障開始時出現有時訪問正常有時訪問出現 502 或 500 ,當時我們就判斷是某個節點出現問題,但無法直接定位出哪個節點,只能依次將一個個節點下線-上線。但是,不走運的是出現問題的節點恰恰是我們最后下線的一個節點。所以,在下線正常節點的過程中,更多的容器被遷移到了問題節點,結果造成更大范圍的故障,直到我們下線問題節點,才恢復正常。
自從我們今年 4 月優化了 docker swarm 集群的部署后(詳見 優化自建 docker swarm 集群的部署),這是第一次出現這么大的故障。我們會對這次故障進行進一步的分析,采取進一步的措施減少引發節點出現不穩定的因素,並盡可能減少單個節點的不穩定帶來的影響。