雲計算之路-阿里雲上:部分服務器未及時續費造成docker swarm集群故障


非常非常抱歉,由於我們的疏忽 —— docker swarm 集群中的 2 台服務器沒有及時續費,造成在夜里0點被自動關機,從而引發整個 docker swarm 集群故障,造成今天凌晨 0:30 ~ 7:50 左右跑在集群上的站點無法訪問,由此給您帶來很大很大的麻煩,懇請您的諒解。受這次故障影響的站點有 閃存博問班級園子短信息招聘小組網摘,openapi 。

昨天下午 14: 30 左右我們收到了阿里雲的服務器到期通知,由於打算更換這2台到期的服務器,所以沒有立即進行續費,准備安排在晚上更換服務器,但晚上由於忙去其他事情忘了進行操作,從而釀成了這次大錯。我們會深刻吸取教訓,改進我們的運維工作。

這次故障也讓我們對 docker swarm 集群的穩定性有了更多的疑惑。之前遇到的故障都是由於節點的 CPU 波動,而這次雖然有 2 個節點下線,但集群中還有 3  個節點,當時負載極低,CPU 也沒出現波動,但整個集群依然宕機。從這個角度至少說明 docker swarm 集群並不是真正意義上的分布式集群,對節點的運行狀況依賴比較大,節點問題很容易影響到整個集群。

docker swarm 的不穩定也給我們帶來了另外一個困擾,我們目前正在進行博客站點的 .NET Core 遷移工作,目前的博客站點用了 4 台 4 核 8 G 的 Windows Server 2016 服務器在跑,遷移完成后要不要切換到 docker swarm 上?之前是有這樣的打算,但現在有點望而卻步。

另外,給阿里雲的一個建議,是否可以將服務器過期關機的動作放在中午 12:00 進行,而不是放在夜里 0:00 ,這樣即使忘了續費也可以在中午吃飯的時間及時發現並處理,不然一錯過就是一夜。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM