转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现 ...
https: blog.csdn.net qq article details 一.出现问题 在前一段时间日常环境很不稳定,前端调用mtop接口会出网络异常或服务不存在的异常。查询了服务器上的HSF会有偶尔挂死的情况,服务器上的接口服务都不可用。于是我们对服务器上的状况进行了排查。 二.排查问题的过程 在这次的问题排查主要是围绕JVM的内存使用情况,生成对象分布情况以及GC情况来讨论的。中间有一些 ...
2018-11-08 14:34 0 1460 推荐指数:
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现 ...
上周运维反馈线上程序出现了OOM,程序日志中的输出为 看线程名称应该是tomcat的nio工作线程,线程在处理程序的时候因为无法在堆中分配更多内存出现了OOM,幸好JVM启动参数配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打开拿到的hprof文件进行分析 ...
1、事件还原 昨天下午,收到一个504的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。 诧异之后,继续处理手头的工作。 一小时过后,又收到同样的告警,显然不是偶尔,肯定是哪儿出问题了,于是开始排查。 报警 ...
近期需要对公司的接口做线上的巡查监控,需要写一个脚本放到服务器上,定时运行脚本监测线上接口是否正常。测试的接口不是HTTP协议,而是公司基于TCP协议开发的私有协议,因此不能直接用现成的一些接口测试工具,需要自己写代码来调用接口。由于是私有协议,为了方便各业务项目进行通信,开发部门统一提供了一个 ...
大家好,我是雨乐! 前几天,突然收到报警,线上服务崩溃,然后自动重启。 由于正值双十一期间,业务以稳定为主,线上服务崩溃,这可不是一件小事,赶紧登陆线上服务器,分析原因,迅速解决。 借助这篇文章,记录下整个崩溃的分析和解决过程。 收到报警 上午上班后,正在划水,突然收到邮件报警 ...
背景 公司的主打产品是一款跨平台的 App,我的部门负责为它提供底层的 sdk 用于数据传输,我负责的是 Adnroid 端的 sdk 开发。 sdk 并不直接加载在 App 主进程,而是隔离在一 ...
大家好,我是鸭血粉丝(大家会亲切的喊我 「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么 紧脏 的大事,要好好记录下来。 1 事情回顾 在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况: 但是看到网络 ...
一、OOM背景 疫情期间,大家都开始了远程办公。刚开始不适应,最后感觉还挺好的,不用每天挤地铁,住8平米的出租屋。 忽然有一天,系统报警邮件来了,运维也在群里艾特我,系统OOM了。其实写Java的同学如果自己负责的系统出现了OOM,是很尴尬的事情。 毕竟也是骨灰级玩家了,不慌不忙 ...