故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...
gt 线上用户存储数据后查看提示无权限 前言 不知道什么时候年轻的我曾一度认为Java没啥难度,没有我实现不了的需求,没有我解不了的bug 直到我遇到至今难忘的一个bug 。 线上用户存储数据后查看提示无权限 初次定位 明明自己添加的数据,为什么提示自己没有权限呢 我一开始自信的认为是我们的客户操作有问题 或者是我们权限配置有问题 但是带我自己亲自验证了一下之后发现这个问题时现时不现,属于一个偶 ...
2021-05-14 08:48 3 766 推荐指数:
故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...
1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故过程分析: ①、根据异常日志 ...
错误使用map引发的血案 前言 场景复原 原因 参考 错误使用map引发的血案 前言 最近业务中,同事使用map来接收返回的结果,使用 ...
事故背景 由于误操作在erlcron设置了一个超过3个月后的定时任务。然后第二天之后发现每天的daily reset没有被执行,一些定时任务也没有被执行。瞬间感觉整个人都不好了,怎么无端端就不执行了呢。 通过排查日志,发现了以下报错: 我擦,ecrn_control都崩了,怎么回事 ...
今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个问题:为什么会频繁GC 有过JVM经验的开发者都应该知道,GC是在内存不够时,JVM自动进行 ...
在高并发、异步化等场景,线程池的运用可以说无处不在。线程池从本质上来讲,即通过空间换取时间,因为线程的创建和销毁都是要消耗资源和时间的,对于大量使用线程的场景,使用池化管理可以延迟线程的销毁,大大提高单个线程的复用能力,进一步提升整体性能。 今天遇到了一个比较典型的线上问题,刚好和线程池有关 ...
背景 2018年8月15号下午6点左右一个我们服务的调用方通知我们他们在调用服务接口时出现了大量的异常和通知,并且错误返回值都是“显示未设置结束日期” 问题定位 收到调用方的消息后,我立即展 ...
写在前面 估计二狗子这几天是大姨夫来了,心情很郁闷,情绪也很低落,工作的时候也有点心不在焉。让他发个版本,结果,一行命令下去把线上的数据库删了!你没听错:是删掉了线上的数据库!运营那边顿时炸了锅:怎么回事?系统不能访问了!什么情况啊?!很多客户都在投诉了!! 尽管运营那边慌慌张张 ...