sence:python中使用subprocess.Popen(cmd, stdout=sys.STDOUT, stderr=sys.STDERR, shell=True) ,stdout, s ...
周末一大早被报警惊醒,rm频繁切换 急急忙忙排查看到两处错误日志 错误信息 错误信息 查看源码处FairScheduler 跟进去看下 第二处报错是 修改方法二 ...
2019-12-21 15:13 0 728 推荐指数:
sence:python中使用subprocess.Popen(cmd, stdout=sys.STDOUT, stderr=sys.STDERR, shell=True) ,stdout, s ...
一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...
一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现 ...
近期遇到一个堆外内存导致swap飙高的问题,这类问题比较罕见,因此将整个排查过程记录下来了 现象描述 最近1周线上服务器时不时出现swap报警(swap超过内存10%时触发报警,内存是4G,因此swap超过400M会触发报警),每次都是童鞋们通过重启tomcat解决的;但导致的根本原因 ...
刚入职公司接触到的第一个项目,应用架构比较简单和无理 1、业务是推送数据到ldap数据库,应用是java写的 2、架构是两台mysql主主复制,haproxy做两台mysql的负载(ps:由于应用代码的逻辑,导致haproxy只能把流量切换到一台数据库),keepalived做高可用 ...
起因:周末测试发现线上mq消息积压了十几万的消息,如下图所示 每个队列几万的消息,立即采取紧急措施,将队列下线重新上线。 处理积压消息的量,调用量起来了,很快消息积压解决了。开始事件复盘。 首先分析是否是消息消费能力跟不上消息产生原因,看入口消息,QPS是29.6 消息消费 ...
标题采自:英雄联盟-瑞文:断剑重铸之日,骑士归来之时! 断剑 前两天早上在挤地铁的时候看到小组群里,主管发了好多消息,打开来一看,说是XX项目自从22号发版后,每天晚上就疯狂Full GC ...