雲計算之路-阿里雲上:針對 docker swarm 故障的部署調整以及應急措施


針對上周 docker swarm 集群的頻繁故障(詳見故障一故障二故障三),我們今天對 docker swarm 集群的部署進行了如下調整。

將 docker engine 由  “17.12.0-ce, build c97c6d6”  升級至  “17.12.1-ce, build 7390fc6” ,這是 docker 在 2 月 27 日發布的最新穩定版

~# docker -v
Docker version 17.12.1-ce, build 7390fc6

將之前的 “5 個 manager 節點 + 1 個 worker 節點” 調整為 “3 個 manager 節點 + 3 個 worker 節點”,3 個 manager 節點的阿里雲服務器配置為 1 台 4 核 8 G  + 2 台 2 核 4 G ,3 個 worker 節點的配置為 3 台 4 核 8 G ,應用容器盡量部署在 worker 節點上。

使用新的部署后,昨天 18:00 左右集群又出現了宕機,當時怎么處理也無法恢復,最后實在沒辦法,通過阿里雲控制台強制重啟所有節點服務器后,竟然神奇地一切恢復正常。

在目前問題沒有根本解決的情況下,我們會采取這樣的應急措施:部署一個備用 docker swarm 集群,當主集群出現故障時,切換到備用集群。

另外在周末遇到一次節點服務器“死機”的情況,ssh 登錄無響應,通過阿里雲控制台管理終端登錄也沒有響應,唯有通過阿里雲控制台強制重啟服務器。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM