問題背景 、定時任務調用存儲過程、將數據插入臨時表時。出現了uuid重復的報錯。 報錯信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...
標題聽起來很聳人聽聞,不過確實沒有誇大的意思,對於我們來說確實算得上 血案 了。這個問題最終導致了某個底層的核心應用 分鍾內不可用,間接導致上層很多應用也出現了問題,尤其是一些支付相關的業務也出現了不可用情況。由於故障影響較大,該故障在內部定級很高。故障排查過程也算是一波三折,中間的槽點也比較多,特別是對網絡比較了解的大佬能一眼看出來問題。這個故障的排查工作我也深度參與了,這里做一下總結,希望能給 ...
2021-07-28 22:48 0 129 推薦指數:
問題背景 、定時任務調用存儲過程、將數據插入臨時表時。出現了uuid重復的報錯。 報錯信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...
非常抱歉,今天 8:48 開始,我們使用的阿里雲 RDS SQL Server 數據庫實例突然出現 CPU 100% 問題,引發全站故障,由此給您帶來麻煩,請您諒解。 發現故障后立即進行主備切換,和往常一樣,第1次主備切換失敗,第2次主備切換完成后恢復正常。 上次同樣故障發生在2020年 ...
今天五一勞動節的一大早 4:50-6:30 期間,我們使用的阿里雲 RDS SQL Server 數據庫實例再次出現 CPU 100% 問題,引發全站故障,由此給您帶來麻煩,請您諒解。 我們發現故障后立即進行主備切換,與上次故障不同的是,這次主備切換沒有成功,再次切換,依然沒有成功,后來嘗試重啟 ...
悄悄地它又突然來了 —— 數據庫服務器 CPU 100% 問題,上次光臨時間是 3-30 8:48,這次是 4-28 9:41。 這次我們做出了快速反應,發現后立即進行主備切換,這次一次切換成功,CPU 很快恢復正常。 但是,這次來的“真”是時候(訪問高峰),雖然數據庫 CPU 恢復正常 ...
今天晚上9點我們收到阿里雲的告警通知: 【阿里雲監控】華東1(杭州)-雲數據庫RDS版<cnblogsdb> [instanceId=xxx] 於21:00 發生告警, 前往診斷 CPU使用率平均值(98.25>=80 ), 持續時間4分鍾, rds_CpuUsage ...
今天上午11:10,我們又中“獎”了,我們使用的阿里雲 RDS 實例(SQL Server 2016 標准版,16核32G)突發出現 CPU 100%,引發全站故障,直到 12:15 才完全恢復,由此給您帶來很大的麻煩,請您諒解。 這是我們今年的第3次中“獎”,前2次分別發生 ...
非常抱歉,今天上午 10:48 ~ 11:33 期間,我們所使用的數據庫服務(阿里雲 RDS 實例 SQL Server 2016 標准版)又出現了 CPU 近 100% 問題,由此給您帶來麻煩,請您諒解。 這次剛開始出現 CPU 近 100% 問題時,沒有造成大的影響,后來有段時間 CPU ...
今天下午14:30左右,先是發現博客后台出現502(博客后台的 pod 健康檢查時會連接數據庫,如果連接過慢造成健康檢查失敗,pod 會重啟,如果所有 pod 都因健康檢查失敗而重啟,這時訪問就會出現502)。過了一會,其中1個 pod 重啟成功,博客后台恢復正常。 原以為只是一次短暫的波動 ...