這篇博文記錄一下6月1日在阿里雲上遇到的奇怪的CPU 100%問題,希望多年以后能真相大白。
那天負載均衡(SLB)中只放了1台雲服務器(平時都放2台),由於是節假日,雖然只放了一台,但這台服務器的負載也沒有平時高。但在上午的時候突然出現了CPU 100%問題,然后切換到另外一台雲服務器恢復正常。
下午的時候,我們將負載又切換回那台出問題的服務器,正常運行一段時間后,CPU又飆到100%。切換回之前正常的那台服務器后又恢復正常。
對比兩台服務器,雖然那台正常的服務器CPU波動也挺大,但即使偶爾串到100%,也很快會下來。
而那台有問題的服務器,CPU只要一100%,就一直100%。自從使用阿里雲以來,我們多次遇到這種某種特殊條件觸發的CPU一旦100%就一直100%的情況。我們以前一直懷疑是.NET在正則表達式處理上存在某種bug。但這次通過對比發現,那台不出問題的雲服務器所在的物理機上沒有其它虛擬機,問題會不會與這個有關呢。。。