原文:数据库故障引发的“血案”

标题听起来很耸人听闻,不过确实没有夸大的意思,对于我们来说确实算得上 血案 了。这个问题最终导致了某个底层的核心应用 分钟内不可用,间接导致上层很多应用也出现了问题,尤其是一些支付相关的业务也出现了不可用情况。由于故障影响较大,该故障在内部定级很高。故障排查过程也算是一波三折,中间的槽点也比较多,特别是对网络比较了解的大佬能一眼看出来问题。这个故障的排查工作我也深度参与了,这里做一下总结,希望能给 ...

2021-07-28 22:48 0 129 推荐指数:

查看详情

postgresql数据库uuid重复引发血案

问题背景 、定时任务调用存储过程、将数据插入临时表时。出现了uuid重复的报错。 报错信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...

Tue Aug 21 00:51:00 CST 2018 0 2275
故障公告】阿里云 RDS SQL Server 数据库实例 CPU 100% 引发全站故障

非常抱歉,今天 8:48 开始,我们使用的阿里云 RDS SQL Server 数据库实例突然出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解。 发现故障后立即进行主备切换,和往常一样,第1次主备切换失败,第2次主备切换完成后恢复正常。 上次同样故障发生在2020年 ...

Tue Mar 30 17:29:00 CST 2021 97 109107
故障公告】数据库服务器再次 CPU 100% 引发全站故障

今天五一劳动节的一大早 4:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解。 我们发现故障后立即进行主备切换,与上次故障不同的是,这次主备切换没有成功,再次切换,依然没有成功,后来尝试重启 ...

Sun May 02 04:53:00 CST 2021 16 2778
故障公告】数据库服务器 CPU 100% 引发网站故障

悄悄地它又突然来了 —— 数据库服务器 CPU 100% 问题,上次光临时间是 3-30 8:48,这次是 4-28 9:41。 这次我们做出了快速反应,发现后立即进行主备切换,这次一次切换成功,CPU 很快恢复正常。 但是,这次来的“真”是时候(访问高峰),虽然数据库 CPU 恢复正常 ...

Wed Apr 28 20:07:00 CST 2021 58 6407
故障公告】访问高峰数据库服务器 CPU 100% 引发全站故障

今天上午11:10,我们又中“奖”了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:15 才完全恢复,由此给您带来很大的麻烦,请您谅解。 这是我们今年的第3次中“奖”,前2次分别发生 ...

Tue Nov 03 21:35:00 CST 2020 94 14561
故障公告】数据库服务器 CPU 近 100% 引发故障

非常抱歉,今天上午 10:48 ~ 11:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解。 这次刚开始出现 CPU 近 100% 问题时,没有造成大的影响,后来有段时间 CPU ...

Thu Nov 28 20:35:00 CST 2019 51 4765
故障公告】14:30-15:30左右数据库连接数飙升引发全站故障(更新)

今天下午14:30左右,先是发现博客后台出现502(博客后台的 pod 健康检查时会连接数据库,如果连接过慢造成健康检查失败,pod 会重启,如果所有 pod 都因健康检查失败而重启,这时访问就会出现502)。过了一会,其中1个 pod 重启成功,博客后台恢复正常。 原以为只是一次短暂的波动 ...

Sat May 08 01:49:00 CST 2021 70 7517
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM