非常抱歉,由於一台使用阿里雲搶占式實例的緩存服務器被自動釋放,造成今天 10:20-11:30 左右網站無法正常訪問,由此給您帶來很大的麻煩,懇請您的諒解。
這台阿里雲搶占式實例服務器的出價方式是“使用自動出價”,之前我們使用這種出價方式的阿里雲搶占式實例從來沒有被自動釋放過。
而購買頁面的提示“使用自動出價-以按量付費實例規格價格為上限”,讓我們誤以為自動出價的搶占式實例不會被釋放,最多只會以按量付費實例的價格收費。
昨天下午 14:50 左右,收到了阿里雲的通知短信與郵件:
【阿里雲】尊敬的用戶,您好!您的搶占式實例: i-bp1938t1plpkzggc5jd1(couchbase) 因庫存變化, 即將進入釋放狀態
您好!您的搶占式實例: i-bp1938t1plpkzggc5jd1已標記進入即將進入釋放狀態,5分鍾后會自動釋放。
建議您使用關機腳本來保存您的應用數據。謝謝!
阿里雲計算有限公司
收到通知時覺得很奇怪,自動出價的服務器怎么會被釋放?難道是阿里雲的誤通知?
為了以防萬一,當時准備換服務器,但過了5分鍾后發現那台服務器還在,沒被釋放,於是就真以為是阿里雲的誤通知。
。。。
今天出故障時發現數據庫服務器壓力非常大,在排查過程中突然想到昨天阿里雲釋放服務器的通知,趕緊查看,汗,那台服務器沒了。
原來阿里雲在后來的某個時間將那台服務器“偷偷”釋放了(釋放時沒有發任何通知),而且這樣的釋放不會觸發阿里雲雲監控的報警,再加上我們缺少對緩存服務器的專門監控,結果在服務器被釋放后我們沒有及時發現,造成今天在訪問高峰時數據庫服務器壓力過大,從而引發故障。
我們會吸取這次教訓,改進服務器的部署。
后來,向阿里雲提交工單后才知道"當市場價格高於您的出價或者資源供需關系變化時,實例會被自動釋放"也適用於“使用自動出價”的方式,自動出價不會出現“市場價格高於您的出價”的情況,但會出現“資源供需關系變化”的情況(比如阿里雲庫存服務器不夠用),這時阿里雲就會在已購買的競價服務器中“搶占”一些據為己有。
通過這次教訓也終於明白了為什么阿里雲把當初的“競價實例”改名為“搶占式實例”。