今天晚上9點我們收到阿里雲的告警通知:
【阿里雲監控】華東1(杭州)-雲數據庫RDS版<cnblogsdb> [instanceId=xxx] 於21:00 發生告警, 前往診斷 CPU使用率平均值(98.25>=80 ), 持續時間4分鍾, rds_CpuUsage
收到通知后,我們立即登錄阿里雲 RDS 控制台進行主備庫切換,等主備庫完成切換后一看並沒有切換過來,趕緊再次進行切換,第2次切換成功了,切換完成后 CPU 立刻降至正常水平,全站恢復正常。
這次故障發生時間是8月20日20:55~21:14,由此給您帶來麻煩,請您諒解。
上次發生同樣故障是6月24日,詳見 【故障公告】阿里雲 RDS 實例 CPU 100% 故障引發全站無法正常訪問。
阿里雲數據庫專家分析后懷疑是“LINQ 生成的 SQL 存在問題,導致概率性 SQL Server 出現參數嗅探問題”。
我們會進一步分析並優化這次引發參數嗅探問題的 SQL 語句。