原文:一次线上OOM故障排查经过

转贴:http: my.oschina.net flashsword blog 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现是:各种连接超时,从mysql mongodb和zookeeper到netty,能超时的都超时过了。其他看不到太多有效的异常。 所 ...

2014-03-06 13:05 0 2844 推荐指数:

查看详情

一次线上OOM过程的排查

可用。于是我们对服务器上的状况进行了排查。 二.排查问题的过程 在这次的问题排查主要是围绕JVM的内存使用情况,生 ...

Thu Nov 08 22:34:00 CST 2018 0 1460
一次 android 线上 oom 问题

背景 公司的主打产品是一款跨平台的 App,我的部门负责为它提供底层的 sdk 用于数据传输,我负责的是 Adnroid 端的 sdk 开发。 sdk 并不直接加载在 App 主进程,而是隔离在一 ...

Mon Nov 29 17:54:00 CST 2021 1 297
一次线上 OOM 和性能优化

大家好,我是鸭血粉丝(大家会亲切的喊我 「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么 紧脏 的大事,要好好记录下来。 1 事情回顾 在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况: 但是看到网络 ...

Thu Jan 02 05:44:00 CST 2020 1 973
OOM】记一次线上OOM解决全流程

一、OOM背景   疫情期间,大家都开始了远程办公。刚开始不适应,最后感觉还挺好的,不用每天挤地铁,住8平米的出租屋。   忽然有一天,系统报警邮件来了,运维也在群里艾特我,系统OOM了。其实写Java的同学如果自己负责的系统出现了OOM,是很尴尬的事情。   毕竟也是骨灰级玩家了,不慌不忙 ...

Mon Feb 24 21:03:00 CST 2020 1 1271
通过jstack与jmap分析一次线上故障

一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
通过jstack与jmap分析一次线上故障

一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM