都是在内存中处理的) 记录下此次OOM的排查过程。 1. 前置知识 关于JVM调试的前置知 ...
问题产生 最近新上线的系统偶尔会报FullGC时间过长 gt s 的告警,查看GC日志,如下图所示: 看到GC日志,我第一时间关注到的不是GC耗时,而是GC触发的原因:Metadata GC Threshold 也就是 FullGC 触发的原因是因为Metaspace大小达到了GC阈值。在监控系统里面看了一下Metaspace的大小变化趋势,如下图所示: 按照以往的经验,Metaspace在系统 ...
2019-06-13 18:32 0 988 推荐指数:
都是在内存中处理的) 记录下此次OOM的排查过程。 1. 前置知识 关于JVM调试的前置知 ...
上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...
公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已 ...
背景:后台定时任务脚本每天凌晨5点30会执行一个批量扫库做业务的逻辑。 gc错误日志: 借鉴于:understanding-cms-gc-logs 得知导致concu ...
问题发现场景 某天突然收到线上应用的gc时间过长的告警,刚开始只有一台机器偶尔报一下,后续其他机器也纷纷告警,具体告警的阈值是应用10分钟内ygc的总时长达到了6.6s。 初步排除过程 按照gc问题常规排查流程,还是先保留现场,jmap -dump:format=b,file ...
山竹来临,窝在家里整理个人文档。 本篇文章主要讲解排查问题的思路,涉及linux 删除文件的原理、实例误删数据恢复、MySQL实例初始化参数优先级别等,虽然涉及知识点比较浅,但是个人觉得挺有 ...
1、事件还原 昨天下午,收到一个504的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。 诧异之后,继续处理手头的工作。 一小时过后,又收到同样的告警,显然不是偶尔,肯定是哪儿出问题了,于是开始排查。 报警 ...
与锁相关的源码,但是如果我们能够掌握基本的死锁排查方法,对我们的日常开发还是大有裨益的。PS:本文不会介 ...