雲計算之路-阿里雲上：3個manager節點異常造成 docker swarm 集群宕機

本文轉載自查看原文 2018-03-14 12:21 1620 阿里雲/ docker

今天 11:29 - 11:39 左右，docker swarm 集群 3 個 manager 節點同時出現異常，造成整個集群宕機，由此給您帶來很大的麻煩，請您諒解。

受此次故障影響的站點有：博問，閃存，班級，園子，短信息，招聘，小組，網摘，新聞，openapi

最近我們剛剛確認我們所有遇到的 docker swarm 不穩定問題都與部分節點的異常狀況有關，即使是一直讓我們非常頭疼的 docker-flow-proxy 路由問題，也是因為路由容器所在的節點出現異常狀況，只要通過阿里雲控制台重啟這台節點服務器，就能恢復正常。

我們的 docker swarm 集群節點部署是這樣的：5台阿里雲2核4G服務器作為 manager 節點，1台阿里雲4核8G服務器作為 worker 節點。基於這樣的部署，我們想即使部分節點出現異常狀況也不會帶來影響，發現后重啟節點服務器就行了。但沒想到今天3個節點同時出現異常狀況。。。最終通過阿里雲控制台重啟這些異常節點后恢復正常。

對於節點的這種異常狀況，我們目前毫無頭緒，不知是我們的應用問題、還是docker的問題、還是阿里雲服務器的問題，目前唯一的線索是：節點服務器持續運行時間越長，出現異常狀況的概率越高，出現異常狀況后通過阿里雲控制台重啟服務器立馬恢復正常。

對於目前無法確定是船的問題、還是集裝箱的問題、還是貨物的問題的困難處境，我們的臨時解決方法是改進對節點服務器的監控，及時發現出現異常狀況的節點進行重啟操作。

更新：根據我們的進一步分析，更保險的臨時解決方法是當發現一個節點出現異常狀況時要重啟所有 manager 節點服務器。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。