原文:记一次生产环境docker服务CPU飙高排查

今天早上,运维同学发现生产某个服务 CPU 持续飙高,于是开始进行排查: 首先使用 top 命令,查看 CPU 占用高的进程,得到进程 ID 根据上一步找到的进程ID,ps ef grep 进程ID 找到对应程序 进入程序对应docker容器 docker exec iter 容器ID bin bash 容器内部使用 top 命令,查看CPU占用高的进程,得到进程 ID 根据上一步找到的进程ID, ...

2021-12-24 17:25 0 1148 推荐指数:

查看详情

一次生产 CPU 负载排查实践

前言 前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。 其实早在去年我也处理过类似的问题,并记录下来:《一次生产 CPU 100% 排查优化实践》 不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。 问题 ...

Tue Jun 18 16:18:00 CST 2019 4 1125
一次生产 CPU 100% 排查优化实践

前言 到了年底果然都不太平,最近又收到了运维报警:表示有些服务器负载非常,让我们定位问题。 还真是想什么来什么,前些天还故意把某些服务器的负载提高(没错,老板让我写个 BUG!),不过还好是不同的环境互相没有影响。 定位问题 拿到问题后首先去服务器上看了看,发现运行 ...

Mon Dec 17 16:25:00 CST 2018 14 4039
一次JAVA进程导致Kubernetes节点CPU排查与解决

一、发现问题 在一次系统上线后,我们发现某几个节点在长时间运行后会出现CPU持续飙升的问题,导致的结果就是Kubernetes集群的这个节点会把所在的Pod进行驱逐(调度);如果调度到同样问题的节点上,也会出现Pod一直起不来的问题。我们尝试了杀死Pod后手动调度的办法(label ...

Fri Apr 10 22:12:00 CST 2020 1 1940
生产环境碰到系统CPU和频繁GC,你要怎么排查

处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路。对于线上系统突然 ...

Wed Dec 15 18:34:00 CST 2021 0 132
一次FGC导致CPU排查过程

今天测试团队反馈说,服务A的响应很慢,我在想,测试环境也会慢?于是我自己用postman请求了一下接口,真的很慢,竟然要2s左右,正常就50ms左右的。 于是去测试服务器看了一下,发现服务器负载很高,并且该服务A占了很高的cpu。先用top命令,看了load average,发现 ...

Mon Jun 01 18:25:00 CST 2020 4 1260
一次服务CPU排查思路

现象 排查思路 另一台服务CPU正常,由于消息中心有部分老接口是域名调用的,网关已做负载均衡,并且pinpoint上的两台服务器gc如图,初步猜测是否是负载不均衡导致。 经运维调试nginx权重无效,证明与负载均衡无关。那么先看子线程,这种情况 ...

Wed Sep 25 22:46:00 CST 2019 0 673
一次排查CPU的问题

背景 将log4j.xml的日志级别从error调整为info后,进行压测发现CPU占用很高达到了90%多(之前也就是50%,60%的样子). 问题排查 排查思路: 看进程中的线程到底执行的是什么,导致CPU占用较高. 1. 使用top命令查看到底是哪个应用 ...

Fri Nov 05 23:34:00 CST 2021 0 435
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM