雲計算之路-阿里雲上-陣雨:RDS故障的突襲


風雨之后是彩虹,經歷了三個月的風雨之后,從6月14日起(上次故障發生於6月13日)開始享受彩虹。。。而今天突襲而來的RDS故障讓我們懂得了彩虹期間會有陣雨,但不管怎么樣,離“晴空萬里”越來越近了。

2013年7月23日10:00~11:00左右,我們使用的阿里雲RDS(關系型數據庫服務)突然出現故障,造成了網站不能訪問(大家訪問時遇到的502錯誤就是故障的表現)。由此給大家帶來了很大的麻煩,我們深表歉意!望大家諒解!

這次502故障發生時,我們先從服務器上的錯誤日志下手,一下子將故障的引發點逮個正着:

System.Data.SqlClient.SqlException (0x80131904): 在從服務器接收結果時發生傳輸級錯誤。 (provider: TCP Provider, error: 0 - 遠程主機強迫關閉了一個現有的連接。)

數據庫連接被強制關閉,那問題肯定與RDS有關。

10:05聯系阿里雲客戶經理,10:06提交工單。。。

接着,通過telnet至RDS的端口確認是不是網絡問題引起的,telnet正常連接,說明網絡沒問題,問題在RDS本身。

接下來就是阿里雲的工程師在忙,我們只能緊張而焦急地等待。。。

11:00左右,RDS切換至鏡像節點(RDS做了數據庫鏡像)之后,網站立即恢復正常。

對於故障的真正原因,阿里雲工程師接下來會進行全面的分析。多希望有一天阿里雲能像Amazon一樣,將每次故障的原因及處理情況對外公開。

就這樣經歷了一場雲上的陣雨,有人在微博上說我們是阿里雲踩坑大師,我們希望踩一個少一個,同時希望阿里雲找出所有的坑一個一個填平,只要有坑,總會被人踩着的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM