原文:一次生产 CPU 100% 排查优化实践

前言 到了年底果然都不太平,最近又收到了运维报警:表示有些服务器负载非常高,让我们定位问题。 还真是想什么来什么,前些天还故意把某些服务器的负载提高 没错,老板让我写个 BUG ,不过还好是不同的环境互相没有影响。 定位问题 拿到问题后首先去服务器上看了看,发现运行的只有我们的 Java 应用。于是先用 ps 命令拿到了应用的 PID。 接着使用 top Hp pid 将这个进程的线程显示出来。 ...

2018-12-17 08:25 14 4039 推荐指数:

查看详情

一次生产 CPU 高负载排查实践

前言 前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。 其实早在去年我也处理过类似的问题,并记录下来:《一次生产 CPU 100% 排查优化实践》 不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。 问题 ...

Tue Jun 18 16:18:00 CST 2019 4 1125
一次生产环境docker服务CPU飙高排查

今天早上,运维同学发现生产某个服务 CPU 持续飙高,于是开始进行排查: 1、首先使用 top 命令,查看 CPU 占用高的进程,得到进程 ID    2、根据上一步找到的进程ID,ps -ef | grep [进程ID] 找到对应程序    3、进入程序对应docker容器 ...

Sat Dec 25 01:25:00 CST 2021 0 1148
复盘一次生产问题

有整整 10 天木有更文了,这段时间确实比较忙。 有加我微信的朋友知道我上周末出去春游了,部门组织去了趟外伶仃岛,环境挺不错的,这段时间去的人也比较少,值得去玩。 今天讲讲上周末一次生产问题的复盘。 1 事情经过 周日中午从外伶仃岛回来就直奔公司,因为生产出了些问题。问题是 ...

Mon Mar 25 17:18:00 CST 2019 1 755
一次生产事故后感

今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
一次服务器CPU占用100%的问题排查

今天写了一段垃圾代码,然后上服务器上运行,cpu瞬间飙到了100%,现记录一下问题排除过程~ 1. 问题代码 2. top 3. 查找问题 3.1 top -Hp 18571, 找出最耗cpu的线程,结果发现18584是就耗了99.9 ...

Wed Oct 23 06:17:00 CST 2019 0 829
一次线上CPU高的问题排查实践

一次线上CPU高的问题排查实践 前言 近期某一天上班一开电脑,就收到了运维警报,有两台服务CPU负载很高,同时收到一线同事反馈 系统访问速度非常慢,几乎无响应。 一个美好的早晨,最怕什么就来什么。只好推掉其他会议,专心搞定问题。 排查 登录系统一看,后端的接口访问果然全部超时 ...

Mon Jun 24 07:12:00 CST 2019 4 602
一次生产dubbo线程池耗尽的问题

问题:   dubbo线程池耗尽,活跃线程数超过线程池最大线程数(dubbo默认线程池最大线程数为200) 登录服务提供者所在服务器 通过命令行连接dubbo: 查看 ...

Fri Apr 03 19:04:00 CST 2020 0 3640
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM