故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...
错误使用map引发的血案 前言 场景复原 原因 参考 错误使用map引发的血案 前言 最近业务中,同事使用map来接收返回的结果,使用waitGroup来并发的处理执行返回的结果,结果上线之后,直接崩了。 日志大量的数据库缓存池连接失败 场景复原 先来看来伪代码 一个全局的map,然后WaitGroup开启一组协程并发的读写数据,写入内容到map中。 运行的输出 会发现很多goroutine处于 ...
2021-04-23 14:58 4 583 推荐指数:
故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...
记一次http超时引发的事故 前言 分析下具体的代码实现 服务设置超时 客户端设置超时 http.client context http.Transport 问题 总结 ...
> 线上用户存储数据后查看提示无权限 前言 不知道什么时候年轻的我曾一度认为Java没啥难度,没有我实现不了的需求,没有我解不了的bug 直到我遇到至今难忘的一个bug 。 ...
记一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...
在引入Spring的Validated时,需要声明如下bean: 出于偷懒,放在了如下的一个初始化中: 配置好后,@Validated生效了,但是aop,事务 ...
事故背景 由于误操作在erlcron设置了一个超过3个月后的定时任务。然后第二天之后发现每天的daily reset没有被执行,一些定时任务也没有被执行。瞬间感觉整个人都不好了,怎么无端端就不执行了呢。 通过排查日志,发现了以下报错: 我擦,ecrn_control都崩了,怎么回事 ...
项目上线一周后,正准备看新闻的我突然接到了一个任务。线上突然出现了一条乱码的数据,需要解决这个bug。于是我放下了手中的保温杯,开始解决这个bug。经过一番折腾,发现是有一个同事在处理IO流上写得有点问题,导致了乱码的产生。 一、问题的发现与分析 (1)发现 针对这个乱码问题 ...
一、起 支付系统突然出现频繁的超时,查看error日志没有什么发现,凭经验去gc日志瞅一眼,有频繁的full gc,而且每两次gc,老年代会有80%的内存无法被回收,基本确认是系统出现内存泄漏,导致老年代空间被占满,频繁触发full gc,full gc 触发stop the word ...