昨天 18:00 之后我們將自建 docker swarm 集群上的所有應用都切換到了阿里雲 swarm 容器服務(非 swarm mode ,不支持 overlay 網絡)的集群上。
今天晚上我們通過阿里雲容器服務控制台將1個節點移出集群(當時集群中一共有9個節點)
沒想到這樣一個常規操作竟然造成了博問站點故障
故障時間 20:53-20:55 左右,由此給您帶來麻煩,請您諒解。
發現故障時,我們通過阿里雲容器服務控制台“重新部署”博問應用后恢復正常。
故障相關日志如下:
2018-3-22 20:53:28 伸縮服務q_web失敗:Conflict: The name q_web_1 is already assigned. You have to delete (or rename) that container to be able to assign q_web_1 to a container again. 2018-3-22 20:53:28 伸縮服務q_web失敗:Conflict: The name q_web_2 is already assigned. You have to delete (or rename) that container to be able to assign q_web_2 to a container again.
另外,我們又發現重啟集群中的1個節點也會造跑在這個節點上的所有應用故障,而不像我們自建 docker swarm 集群那樣會自動將容器遷移到其他節點。而且,節點重啟后應用不能自動恢復,需要手工一個一個“重新部署”應用。