【故障公告】阿里雲 RDS 數據庫服務器 CPU 100% 造成全站故障


github 故障公告鏈接:https://github.com/cnblogs/coder-service/issues/106

后續故障公告:升級阿里雲 RDS SQL Server 實例故障經過

非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里雲 RDS 數據庫服務器突然出現 CPU 100% 問題,造成全站無法正常訪問,由此您帶來了很大的麻煩,請您諒解。

故障經過是這樣的。19:34 這個時間點本來是一個訪問低峰,數據庫壓力比訪問高峰時低很多,但數據庫服務器卻異想天開、吃飽了撐着地讓自己的 CPU 滿負荷工作(到現在我們都沒想通,難道是服務器晚飯吃多了想幫助消化?)。開始我們以為是某個應用引起的,一個一個應用排查與重啟, 但 CPU 不為所動,依然百分百。接着,我們一邊向阿里雲提交工單求助,一邊通過阿里雲 RDS 控制台進行主備切換,雖然控制台顯示切換成功后,但“實例可用性”中主備庫信息無任何變化,實際主備庫切換並沒有成功,絕招也失靈。請阿里雲幫忙手動進行主備切換,但阿里雲操作后反饋由於數據庫訪問壓力大,手動也切換不過去,建議我們重啟實例。最終,我們決定重啟實例,重啟實例后一切恢復正常。是的,就是用最笨的方法——重啟——解決了問題,在故障期間我們采取的所有措施都是徒勞,讓人哭笑不得。

望着今晚被狂風暴雨突襲后一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,我們一直在努力建設園子,但今天的故障又告訴我們,沒那么容易,我們的努力還不夠,我們別無選擇,唯有更加努力。

【更新】

00:22 開始將阿里雲 RDS 實例從 SQL Server 2008 R2 升級至 2016

6:20  數據庫升級完成

升級后大量數據庫查詢超時,正在緊急處理中。

9:20 升級后大量 SQL 需要編譯,RDS 實例的 CPU 一直居高不下,由於阿里雲 RDS 控制台中數據庫實例一直處於“主備庫切換中”狀態中,即使想升級 CPU ,現在也無法進行。

9:50 從早上 8:50 開始阿里雲 DBA 就開始重建備庫,“主備庫切換中”狀態要等備庫重建完成才能解除,升級服務器配置也要等備庫重建完成。

10:29 備庫重建完成,“主備庫切換中”狀態解除。

10:50 准備升級 RDS 配置,但阿里雲升級配置頁面的計價出現問題,即使配置保持不變,也要1萬多元的費用。

11:05 進行了主備切換。

11:10 主備切換完成后,目前恢復了正常。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM