首先向大家致歉,這次雲服務器故障發現於17:30左右,18:30左右恢復正常,給大家帶來了麻煩,請大家諒解! 故障的原因是雲服務器所在的集群負載過高,磁盤寫入性能急劇下降,造成很多數據庫寫入操作超時。后來恢復正常的解決方法是將雲服務器遷移至另一個集群。 下面是故障發生的主要經過: 今天上午 ...
這里的 她 指的是硬盤, 她的人 指的是硬盤空間, 她的心 指的是硬盤的IO能力。 自從使用阿里雲以來,我們遇到了三次故障 一 二 三 ,這三次故障都與磁盤IO高有關。第一次故障發生在跑zzk.cnblogs.com索引服務的雲服務器上,當時的Avg.Disk Read Queue Length高達 多 第二次故障發生在跑images.cnblogs.com靜態文件的雲服務器上,當時的Avg.Di ...
2013-03-15 13:09 40 7821 推薦指數:
首先向大家致歉,這次雲服務器故障發現於17:30左右,18:30左右恢復正常,給大家帶來了麻煩,請大家諒解! 故障的原因是雲服務器所在的集群負載過高,磁盤寫入性能急劇下降,造成很多數據庫寫入操作超時。后來恢復正常的解決方法是將雲服務器遷移至另一個集群。 下面是故障發生的主要經過: 今天上午 ...
雲計算之路系列博文分享的是我們將網站從IDC機房遷移至雲計算平台的實際經歷,目前已遷入阿里雲,這次分享的是我們對之前的博文“解決images.cnblogs.com響應速度慢的詭異問題”中遇到的雲服務器並發連接問題的猜想。不妥之處,歡迎批評指正。 這里再簡單描述一下這個問題:我們的圖片站點(靜態 ...
在雲上,底層的東西你無法觸及,遇到奇怪問題時只能靠猜想,所以使用雲計算會鍛煉你的想像力。 (上圖中藍色是ASP.NET的Requests Queued,另外一個是HTTP.SYS的Arrival Rate) 昨天我們發現了一個重要的線索——“黑色30秒”到來時,最初的表現是請求出現排隊 ...
這篇博文記錄一下6月1日在阿里雲上遇到的奇怪的CPU 100%問題,希望多年以后能真相大白。 那天負載均衡(SLB)中只放了1台雲服務器(平時都放2台),由於是節假日,雖然只放了一台,但這台服務器的負載也沒有平時高。但在上午的時候突然出現了CPU 100%問題,然后切換到另外一台雲服務器恢復正常 ...
7月10日11:14接到一位用戶反饋,訪問園子時加載不了 common.cnblogs.com/script/jquery.js 這個文件。 由於這個域名用了阿里雲CDN,所以我們判斷可能是某個CDN節點出了問題,准備讓這位用戶ping common.cnblogs.com將CDN節點的IP反饋 ...
一周的萬里無雲是我們的第一個目標,這周天氣情況好轉,但昨天/今天下午依然有烏雲飄過。 昨天下午16:40~16:48左右,博客站點的兩台Web服務器突然出現CPU坐過山車的波動情況。 今天下午14:26~14:32左右再次出現CPU坐過山車的波動情況,之后又出現了幾次短時間的波動 ...
為了更好地分享我們解決“黑色1秒”問題的過程,在這篇博文中我們將專門描述一下“黑色1秒”問題的表現。 “黑色1秒”是我們使用阿里雲以來繼“黑色10秒”之后遭遇的最奇特、最詭異、最難以捉摸、最富有戲劇性的問題。 它有2個最顯著的特征: 第一個是最直觀的表現,在Windows性能監視 ...
“黑色1秒”問題經過一個多月的艱苦奮戰,今天終於取得了重要進展!我們終於有了足夠的數據證明不是微軟IIS的問題,就是阿里雲Xen虛擬機的問題。 這篇博文分享的是我們如何進行證明的,而且這次證明連Window性能監視器都不需要。 下面我們來分析一下今天10:37:35出現的“黑色1秒”(下面所用 ...