非常抱歉,今天下午14:40-15:00左右,web服務器突然雪崩似的出現CPU 100%問題,造成博客站點無法訪問(503)。由此給您帶來很大的麻煩,請您諒解。
在問題出現之前,博客站點運行着5台web服務器,4台4核8G的阿里雲-計算型(原獨享)sn1系列II-服務器,1台8核8G的阿里雲c1型系列I服務器。本來今天下午並不是一周的訪問最高峰,這5台服務器綽綽有余。但14:40左右開始,某種未知的情況引起這5台服務器雪崩似的接連地出現CPU 100%。雪上加霜的是,倒下去的服務器沒能很快地站起來,被負載均衡拉黑,剩下的服務器在更高的負載下更加無喘息之機,也一台接一台的倒下、被拉黑。。。
雖然我們發現后很快通過阿里雲彈性伸縮增加服務器,但無濟於事,彈性伸縮從開始增加服務器到服務器正常工作,大約需要5分鍾左右。等彈性伸縮的服務器起來后,已有服務器已基本都倒下,它們根本頂不住,上去就倒下。。。加了2台,倒下2台。
15:00左右,引發CPU 100%問題的未知情況消失,這7台服務器的CPU也很快都恢復了正常。
就這樣,一場暴風雨在炎熱的周五下午襲擊了園子。