今天上午11:35~11:40左右,由於負載均衡中的兩台雲服務器CPU占用突然飈至100%,造成網站5分鍾左右不能正常訪問,請大家帶來了麻煩,請諒解!
(上圖中紅色曲線表示CPU占用)
經過分析,我們確認CPU 100%問題與啟用Windows虛擬內存有關。
原先這兩台雲服務器是禁用虛擬內存的,但昨天由於虛擬內存不夠用,造成了服務器自動重啟(詳見雲計算之路-阿里雲上:禁用Windows虛擬內存引發的重啟),於是啟用了Windows虛擬內存。在今天訪問高峰期高並發的情況下,引發了CPU 100%故障。
之前在阿里雲 vs Azure的虛擬機對比測試中發現過啟用虛擬內存會造成CPU占用高的問題,但到現在也不知道究竟是頁面交換文件的磁盤IO引起的,還是Xen虛擬機引起的。只能等阿里雲的高性能磁盤上線,將虛擬內存放在高性能磁盤上去驗證。
目前的臨時解決方法:增加物理內存(避免出現虛擬內存不夠用的情況),禁用虛擬內存(避免出現高並發下CPU 100%的問題)。
2014年1月24日更新:使用帶臨時磁盤的雲服務器開啟虛擬內存不會有這個問題。