一次正常的上线,发了几台docker后,却发现有的机器打了info.log里面有日志,有的没有。排查问题开始: 第一:确认这台docker是否有流量进来,确认有流量进来。 第二:确认这台docker磁盘是否慢了,磁盘没有满。 第三:确认这台docker日志级别,确认 ...
这个是我很早以前解决的一个案例,其现象是系统每次上线后, 多台机器,总有两三机器,出现假死的情况。如何判断出系统假死 借助的是一个第三方公司运维监控平台 这种情况,前同事称之为的 假死 ,需要重新启动系统才能恢复。因为我是新来乍到,觉得这种情况不正常,而且对研发 在这边是研发上线 来说,是一个非常大的上线负担 于是我决定解决一下这个 百年难题 。 我亲自上线,果然很快就碰到了假死的机器。我看到机器 ...
2019-04-30 12:22 4 1634 推荐指数:
一次正常的上线,发了几台docker后,却发现有的机器打了info.log里面有日志,有的没有。排查问题开始: 第一:确认这台docker是否有流量进来,确认有流量进来。 第二:确认这台docker磁盘是否慢了,磁盘没有满。 第三:确认这台docker日志级别,确认 ...
该项目是一个微信转盘游戏抽奖营销项目,由于运营营销时间要求紧迫,开发测试部署上线用了10天不到,有些准备工作并没有到位,如: 1.由于整体开发在上线前2天才完成,测试了解这个项目需求是在开发的第二周,并没有充足的时间进行完善的功能,UI机型适配,系统压力测试。 2.技术上由于合作方的公众号密钥 ...
背景 近期被抓壮丁解决一个几年前的系统故障,经过反复排查多次监控后终于成功解决,记录分享一下心得吧! 故障描述 具体表现为在高峰访问期间,IIS直接报服务器处理503。 系统部署 采用ARR实现的IIS Sever Farm进行负载均衡 ...
解Bug之路-记一次存储故障的排查过程 高可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查。今天,笔者就给大家带来一个存储偶发性故障的排查过程。 Bug ...
问题来源 因为经常有各种各样的大小项目要跑,全部放一个tomcat很慢,所以俺平时喜欢新建80-89这10个tomcat,分别放不同的项目。以前还一直用的好好的,昨天突然发现87端口的tomcat怎么都访问不了,本来大不了换一个别的端口就了事,但是我觉得问题既然碰到了就要彻底排查,不然下次再碰到 ...
上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现 ...
1、发现服务器变的特别卡,正常服务运行很慢。 到服务器上查询一番发现top下发现 bashd的进程占用100%CPU了。 find /-name bashd* //第一次查询文件占用目录kill -9 pid(bashd) //删除bashd进程 ...