1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故过程分析: ①、根据异常日志 ...
1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故过程分析: ①、根据异常日志 ...
前言 在使用 Arthas 之前,当遇到 Java 线上问题时,如 CPU 飙升、负载突高、内存溢出等问题,你需要查命令,查网络,然后 jps、jstack、jmap、jhat、jstat、hprof 等一通操作。最终焦头烂额,还不一定能查出问题所在。而现在,大多数的常见问题你都可以 ...
正常运行。 处理过程:经过一番调查和尝试,发现docker容器中的项目是以一个yinghuo的用户运行的, ...
前言 2019双11还有不到2个月就要到来了,大家也都知道服务器在大促期间由于流量的增加势必导致机器的cpu与load变高。因此趁着这个时机正好再好好学习、巩固一下cpu和load的概念,为双11做 ...
概述 线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉‘坑’里了,这个‘坑’就是线上故障!线上故障的处理过程可以形象地表达为:‘踩坑’、‘跳坑’、‘填坑’、‘避坑’。 线上故障的处理不仅是一项技术活,更是对技术人员/技术团队反应能力、决策能力、判定能力、组织能力的考验 ...
项目上线后出现bug该怎么解决 在公司中测试人员最基本的职责就是保证项目的质量,尽可能把bug都在上线前找出来。但是实际工作时由于各种各样的原因,不可避免的会有些问题会在上线后被发现。那么如何能够快速的处理这些线上的问题,降低bug的影响范围,减少对公司的业务或者经济损失呢?在这里,我们提供给 ...
的 Exception? 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了? 遇到问题无法在 ...
问题描述: 线上一个服务的突然挂了,无法被调用,查看该服务日志发现Dubbo的线程池全满了: 没有多少访问量,但是线程却猛增,猜测可能是哪里出现了死循环或者哪里发生了死锁。 首先,检测一下服务器的CPU使用量,发现在正常范围内,基本上可以排除哪里出现了死循环。 先找出该服务的进程 ...