问题背景 、定时任务调用存储过程、将数据插入临时表时。出现了uuid重复的报错。 报错信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...
标题听起来很耸人听闻,不过确实没有夸大的意思,对于我们来说确实算得上 血案 了。这个问题最终导致了某个底层的核心应用 分钟内不可用,间接导致上层很多应用也出现了问题,尤其是一些支付相关的业务也出现了不可用情况。由于故障影响较大,该故障在内部定级很高。故障排查过程也算是一波三折,中间的槽点也比较多,特别是对网络比较了解的大佬能一眼看出来问题。这个故障的排查工作我也深度参与了,这里做一下总结,希望能给 ...
2021-07-28 22:48 0 129 推荐指数:
问题背景 、定时任务调用存储过程、将数据插入临时表时。出现了uuid重复的报错。 报错信息 [SQL]select DB_DATA.PR_SELECT() [Err] ERROR: duplicate key value violates unique constraint ...
非常抱歉,今天 8:48 开始,我们使用的阿里云 RDS SQL Server 数据库实例突然出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解。 发现故障后立即进行主备切换,和往常一样,第1次主备切换失败,第2次主备切换完成后恢复正常。 上次同样故障发生在2020年 ...
今天五一劳动节的一大早 4:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解。 我们发现故障后立即进行主备切换,与上次故障不同的是,这次主备切换没有成功,再次切换,依然没有成功,后来尝试重启 ...
悄悄地它又突然来了 —— 数据库服务器 CPU 100% 问题,上次光临时间是 3-30 8:48,这次是 4-28 9:41。 这次我们做出了快速反应,发现后立即进行主备切换,这次一次切换成功,CPU 很快恢复正常。 但是,这次来的“真”是时候(访问高峰),虽然数据库 CPU 恢复正常 ...
今天晚上9点我们收到阿里云的告警通知: 【阿里云监控】华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使用率平均值(98.25>=80 ), 持续时间4分钟, rds_CpuUsage ...
今天上午11:10,我们又中“奖”了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:15 才完全恢复,由此给您带来很大的麻烦,请您谅解。 这是我们今年的第3次中“奖”,前2次分别发生 ...
非常抱歉,今天上午 10:48 ~ 11:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解。 这次刚开始出现 CPU 近 100% 问题时,没有造成大的影响,后来有段时间 CPU ...
今天下午14:30左右,先是发现博客后台出现502(博客后台的 pod 健康检查时会连接数据库,如果连接过慢造成健康检查失败,pod 会重启,如果所有 pod 都因健康检查失败而重启,这时访问就会出现502)。过了一会,其中1个 pod 重启成功,博客后台恢复正常。 原以为只是一次短暂的波动 ...