原文:一次死锁导致CPU异常飘高的整个故障排查过程

目录 一 问题详情 top 命令截图 联系腾讯云排查 检查系统日志发现异常 二 问题解析 三 问题原因 最终结论 四 扩展 进程的几种状态 马后炮 如何快速清理僵尸进程 Z 内核参数相关 如何查看哪些文件被哪些进程被锁 一 问题详情 linux一切皆文件 年 月 号,晚上 . 分左右,线上业务异常,后排查 线上服务器CPU 异常高,机器是 核 G的。但是实际负载已经达到了 左右。 top 命令截 ...

2021-04-23 22:57 16 3421 推荐指数:

查看详情

一次FGC导致CPU排查过程

今天测试团队反馈说,服务A的响应很慢,我在想,测试环境也会慢?于是我自己用postman请求了一下接口,真的很慢,竟然要2s左右,正常就50ms左右的。 于是去测试服务器看了一下,发现服务器负载很高,并且该服务A占了很高的cpu。先用top命令,看了load average,发现 ...

Mon Jun 01 18:25:00 CST 2020 4 1260
一次故障排查过程

上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...

Fri Jan 25 20:50:00 CST 2019 2 969
记录一次Mysql死锁排查过程

背景以前接触到的数据库死锁,都是批量更新时加锁顺序不一致而导致死锁,但是上周却遇到了一个很难理解的死锁。借着这个机会又重新学习了一下mysql的死锁知识以及常见的死锁场景。在多方调研以及和同事们的讨论下终于发现了这个死锁问题的成因,收获颇多。虽然是后端程序员,我们不需要像DBA一样深入地去分析 ...

Mon Feb 20 22:30:00 CST 2017 0 3701
记录一次Mysql死锁排查过程

背景 以前接触到的数据库死锁,都是批量更新时加锁顺序不一致而导致死锁,但是上周却遇到了一个很难理解的死锁。借着这个机会又重新学习了一下mysql的死锁知识以及常见的死锁场景。在多方调研以及和同事们的讨论下终于发现了这个死锁问题的成因,收获颇多。虽然是后端程序员,我们不需要像DBA一样深入 ...

Fri May 17 23:02:00 CST 2019 0 2716
记录一次Flink作业异常排查过程

最近2周开始接手apache flink全链路监控数据的作业,包括指标统计,业务规则匹配等逻辑,计算结果实时写入elasticsearch. 昨天遇到生产环境有作业无法正常重启的问题,我负责对这个问题进行排查跟进。 第一步,基础排查 首先拿到jobmanager和taskmanager的日志 ...

Thu Jun 18 00:07:00 CST 2020 0 571
一次奇怪的的bug排查过程

公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已 ...

Tue Nov 30 18:00:00 CST 2021 2 1723
解Bug之路-记一次存储故障排查过程

解Bug之路-记一次存储故障排查过程 可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查。今天,笔者就给大家带来一个存储偶发性故障排查过程。 Bug ...

Wed Oct 14 18:44:00 CST 2020 12 1799
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM