目前我們在用Azure跑“找找看”的索引服務,詳見博文雲計算之路:用Azure解決“找找看”磁盤IO問題。
今天13:00左右首次遭遇Azure故障,造成找找看站點無法正常訪問。當時Azure虛擬機上的索引服務無法訪問,遠程桌面也無法連接Azure中僅有的兩台虛擬機。進入Azure管理控制台查看,兩台虛擬機都處理於正常運行狀態,重啟虛擬機,依然無法連接。
猜測可能是虛擬機所在的物理機遇到了網絡故障。於是,通過修改Virtual machine size,讓Azure用該虛擬機的VHD文件創建新的虛擬機實例(相當於將虛擬機遷移到另外的物理機)解決了問題。

從這次故障處理中,我們知道了Azure可以讓用戶自己遷移虛擬機。而阿里雲目前需要客服人員手工進行虛擬機的遷移,這也是需要改進的地方。
從中得到的教訓:在雲上,虛擬機一定要做負載均衡,避免單點故障。
另外發現,在虛擬機遷移之后,Temporary Storage中的數據會被清空(Temporary Storage是Azure提供的速度非常快的臨時存儲空間)。
更新:后來知道這次故障是Azure香港機房故障引起的。
