背景 近期被抓壮丁解决一个几年前的系统故障,经过反复排查多次监控后终于成功解决,记录分享一下心得吧! 故障描述 具体表现为在高峰访问期间,IIS直接报服务器处理503。 系统部署 采用ARR实现的IIS Sever Farm进行负载均衡 ...
不知道为什么,窗外出现了乌云,又不知道为什么,烦人的蝉鸣突然变得无声了,大脑中的嘈杂瞬间归位了宁静,草他么,我的测试服务器又特么无缘无故的崩了。 作为菜鸟为了排查故障,最先想到的就是找日志,先后分析了项目启动日志,resin启动日志,jvm日志完全看不出来结果。 .jvm日志显示gc正常,内存没有溢出。 .resin进程在,启动日志也没有报错。 .项目日志有条警告,log j和另外一个log包有 ...
2015-08-19 20:54 0 2048 推荐指数:
背景 近期被抓壮丁解决一个几年前的系统故障,经过反复排查多次监控后终于成功解决,记录分享一下心得吧! 故障描述 具体表现为在高峰访问期间,IIS直接报服务器处理503。 系统部署 采用ARR实现的IIS Sever Farm进行负载均衡 ...
最近接连听说一台线上服务器总是不响应客户端请求。 登录服务器后查询iis状态,发现应用程序池状态变为已停止。 按经验想,重启后应该就ok,第一次遇到也确实起了作用,当时完全没在意,以为是其他人无意把服务关闭了而已。 但是之后几天几乎每天都出现问题,应用程序池再次成为 已停止 状态。这个情况 ...
起因: 公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有 ...
服务器突然宕机,领导找了服务器供应商,然后供应商发来一张马赛克画质的图片。说是我们做了什么操作,透过马赛克,隐约能看到一些 以及一些,供应商说是因为升级操作导致的,但是上面分明是22号升级的,23号宕的机。 全图(眼差点瞎了) 查看系统日志 所有日志目录 查看 ...
今天写了一段垃圾代码,然后上服务器上运行,cpu瞬间飙到了100%,现记录一下问题排除过程~ 1. 问题代码 2. top 3. 查找问题 3.1 top -Hp 18571, 找出最耗cpu的线程,结果发现18584是就耗了99.9 ...
现象 排查思路 另一台服务器CPU正常,由于消息中心有部分老接口是域名调用的,网关已做负载均衡,并且pinpoint上的两台服务器gc如图,初步猜测是否是负载不均衡导致。 经运维调试nginx权重无效,证明与负载均衡无关。那么先看子线程,这种情况 ...
一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...
一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...