上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...
一次 KVM 虚拟机磁盘占满的排查过程 KVM 虚拟机系统为 CentOS,文件系统为 XFS。 现象如下: 使用 df h 命令发现磁盘剩余空间为 k 总大小为 G ,使用 df i 发现 inode 可用数量为 总数为 w,正常状态为 w 虚拟机为初始状态时,磁盘空间使用都正常 排查如下: 查看了几个日志,大小都在 M以下,并且这些日志几乎一一对应,不存在某个日志比其它多几个数量的问题,又因为 ...
2020-11-03 17:53 0 949 推荐指数:
上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...
公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已经支付的订单,不能被撤消,只能退款或者部分退款。 这两条log虽然没有太大问题,关键问题 ...
问题发现场景 某天突然收到线上应用的gc时间过长的告警,刚开始只有一台机器偶尔报一下,后续其他机器也纷纷告警,具体告警的阈值是应用10分钟内ygc的总时长达到了6.6s。 初步排除过程 按照gc问题常规排查流程,还是先保留现场,jmap -dump:format=b,file ...
山竹来临,窝在家里整理个人文档。 本篇文章主要讲解排查问题的思路,涉及linux 删除文件的原理、实例误删数据恢复、MySQL实例初始化参数优先级别等,虽然涉及知识点比较浅,但是个人觉得挺有 ...
1、事件还原 昨天下午,收到一个504的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。 诧异之后,继续处理手头的工作。 一小时过后,又收到同样的告警,显然不是偶尔,肯定是哪儿出问题了,于是开始排查。 报警 ...
与锁相关的源码,但是如果我们能够掌握基本的死锁排查方法,对我们的日常开发还是大有裨益的。PS:本文不会介 ...
背景说明 组织架构被拆分为多个微服务 需求: 一个输入框 查询 前后模糊查询 人员信息(工号、姓名),前后模糊查询 单位名称。 跨库平级查询!! ...
今天测试团队反馈说,服务A的响应很慢,我在想,测试环境也会慢?于是我自己用postman请求了一下接口,真的很慢,竟然要2s左右,正常就50ms左右的。 于是去测试服务器看了一下,发 ...