【文章推荐】记录一次线上yarn RM频繁切换的故障

sence：python中使用subprocess.Popen(cmd, stdout=sys.STDOUT, stderr=sys.STDERR, shell=True) ，stdout, s ...

一、发现问题下面是线上机器的cpu使用率，可以看到从4月8日开始，随着时间cpu使用率在逐步增高，最终使用率达到100%导致线上服务不可用，后面重启了机器后恢复。二、排查思路简单分析下可能出问题的地方，分为5个方向： 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

通过jstack与jmap分析一次线上故障

一、发现问题下面是线上机器的cpu使用率，可以看到从4月8日开始，随着时间cpu使用率在逐步增高，最终使用率达到100%导致线上服务不可用，后面重启了机器后恢复。二、排查思路简单分析下可能出问题的地方，分为5个方向： 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

一次线上OOM故障排查经过

转贴：http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过，内容比较基础但是真实，主要是记录一下，没有OOM排查经验的同学也可以参考。现象我们之前有一个计算作业。最近经常出现不稳定，无法正常响应的情况。具体表现 ...

近期遇到一个堆外内存导致swap飙高的问题，这类问题比较罕见，因此将整个排查过程记录下来了现象描述最近1周线上服务器时不时出现swap报警（swap超过内存10%时触发报警，内存是4G，因此swap超过400M会触发报警），每次都是童鞋们通过重启tomcat解决的；但导致的根本原因 ...

刚入职公司接触到的第一个项目，应用架构比较简单和无理 1、业务是推送数据到ldap数据库，应用是java写的 2、架构是两台mysql主主复制，haproxy做两台mysql的负载（ps：由于应用代码的逻辑，导致haproxy只能把流量切换到一台数据库），keepalived做高可用 ...

[JVM]一次线上频繁GC的问题解决

起因：周末测试发现线上mq消息积压了十几万的消息，如下图所示每个队列几万的消息，立即采取紧急措施，将队列下线重新上线。处理积压消息的量，调用量起来了，很快消息积压解决了。开始事件复盘。首先分析是否是消息消费能力跟不上消息产生原因，看入口消息，QPS是29.6 消息消费 ...

一次线上FullGC问题记录

标题采自：英雄联盟-瑞文：断剑重铸之日，骑士归来之时！断剑前两天早上在挤地铁的时候看到小组群里，主管发了好多消息，打开来一看，说是XX项目自从22号发版后，每天晚上就疯狂Full GC ...