1.特别重大事故:30人以上死亡,或100人以上重伤(包括急性工业中毒,下同)或1亿元以上直接经济损失 2.重大事故:10人以上30人以下死亡,或50人以上100人以下重伤,或5000w-1亿以下直接经济损失 3.较大事故:3人以上10人以下死亡,或者10人以上50人以下重伤 ...
首先,祝大家新年快乐 应该陆陆续续开始踏上了回家的征程吧 生产事故 产品上线一段时间之后,技术支持反馈客户现场一个进程总是挂掉或者不干活 最开始不紧不慢的查找问题,后来老大很生气说:生产事故很严重,你们居然不重视 成立了一个应急小组,专门解决此问题,其中包括我 事故原因 经过 天没日没夜的艰苦奋斗,终于找到进程挂掉的原因,问题因我而起。大约去年 月,做一个项目,与大数据对接,把数据推给它,然在加 ...
2019-01-23 16:01 8 1272 推荐指数:
1.特别重大事故:30人以上死亡,或100人以上重伤(包括急性工业中毒,下同)或1亿元以上直接经济损失 2.重大事故:10人以上30人以下死亡,或50人以上100人以下重伤,或5000w-1亿以下直接经济损失 3.较大事故:3人以上10人以下死亡,或者10人以上50人以下重伤 ...
在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者APP,在打开的时候标的就已经被抢光了,刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候也不就这样吗?随着活动 ...
慢查询的监控和告警 幸运的一点:在出事故之前刚好完成了缓存过期时间的升级且过期时间为一个月 ...
1、现象: 今天下午公司客户群里突然报警,说订单没有推送服务商,经排查发现是rabbitmq堵住了,查询elk和监控没有发现业务异常或超时日志。 通过rabbitmq后面发现一个队列有异常 ...
今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...
昨天发现线上试跑期的一个程序挂了,平时都跑的好好的,查了下日志是因为昨天运营跑了一家美妆top级淘品牌店,会员量近千万,一下子就把128G的内存给爆了,当时并行跑了二个任务,没辙先速写一段代码限流,后 ...
写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...
事故背景: 我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表(报表有误 ...