原文:數據庫故障引發的“血案”

標題聽起來很聳人聽聞,不過確實沒有誇大的意思,對於我們來說確實算得上 血案 了。這個問題最終導致了某個底層的核心應用 分鍾內不可用,間接導致上層很多應用也出現了問題,尤其是一些支付相關的業務也出現了不可用情況。由於故障影響較大,該故障在內部定級很高。故障排查過程也算是一波三折,中間的槽點也比較多,特別是對網絡比較了解的大佬能一眼看出來問題。這個故障的排查工作我也深度參與了,這里做一下總結,希望能給 ...

2021-07-28 22:48 0 129 推薦指數:

查看詳情

postgresql數據庫uuid重復引發血案

問題背景 、定時任務調用存儲過程、將數據插入臨時表時。出現了uuid重復的報錯。 報錯信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...

Tue Aug 21 00:51:00 CST 2018 0 2275
故障公告】阿里雲 RDS SQL Server 數據庫實例 CPU 100% 引發全站故障

非常抱歉,今天 8:48 開始,我們使用的阿里雲 RDS SQL Server 數據庫實例突然出現 CPU 100% 問題,引發全站故障,由此給您帶來麻煩,請您諒解。 發現故障后立即進行主備切換,和往常一樣,第1次主備切換失敗,第2次主備切換完成后恢復正常。 上次同樣故障發生在2020年 ...

Tue Mar 30 17:29:00 CST 2021 97 109107
故障公告】數據庫服務器再次 CPU 100% 引發全站故障

今天五一勞動節的一大早 4:50-6:30 期間,我們使用的阿里雲 RDS SQL Server 數據庫實例再次出現 CPU 100% 問題,引發全站故障,由此給您帶來麻煩,請您諒解。 我們發現故障后立即進行主備切換,與上次故障不同的是,這次主備切換沒有成功,再次切換,依然沒有成功,后來嘗試重啟 ...

Sun May 02 04:53:00 CST 2021 16 2778
故障公告】數據庫服務器 CPU 100% 引發網站故障

悄悄地它又突然來了 —— 數據庫服務器 CPU 100% 問題,上次光臨時間是 3-30 8:48,這次是 4-28 9:41。 這次我們做出了快速反應,發現后立即進行主備切換,這次一次切換成功,CPU 很快恢復正常。 但是,這次來的“真”是時候(訪問高峰),雖然數據庫 CPU 恢復正常 ...

Wed Apr 28 20:07:00 CST 2021 58 6407
故障公告】訪問高峰數據庫服務器 CPU 100% 引發全站故障

今天上午11:10,我們又中“獎”了,我們使用的阿里雲 RDS 實例(SQL Server 2016 標准版,16核32G)突發出現 CPU 100%,引發全站故障,直到 12:15 才完全恢復,由此給您帶來很大的麻煩,請您諒解。 這是我們今年的第3次中“獎”,前2次分別發生 ...

Tue Nov 03 21:35:00 CST 2020 94 14561
故障公告】數據庫服務器 CPU 近 100% 引發故障

非常抱歉,今天上午 10:48 ~ 11:33 期間,我們所使用的數據庫服務(阿里雲 RDS 實例 SQL Server 2016 標准版)又出現了 CPU 近 100% 問題,由此給您帶來麻煩,請您諒解。 這次剛開始出現 CPU 近 100% 問題時,沒有造成大的影響,后來有段時間 CPU ...

Thu Nov 28 20:35:00 CST 2019 51 4765
故障公告】14:30-15:30左右數據庫連接數飆升引發全站故障(更新)

今天下午14:30左右,先是發現博客后台出現502(博客后台的 pod 健康檢查時會連接數據庫,如果連接過慢造成健康檢查失敗,pod 會重啟,如果所有 pod 都因健康檢查失敗而重啟,這時訪問就會出現502)。過了一會,其中1個 pod 重啟成功,博客后台恢復正常。 原以為只是一次短暫的波動 ...

Sat May 08 01:49:00 CST 2021 70 7517
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM