原文:因我而起的生产事故

首先,祝大家新年快乐 应该陆陆续续开始踏上了回家的征程吧 生产事故 产品上线一段时间之后,技术支持反馈客户现场一个进程总是挂掉或者不干活 最开始不紧不慢的查找问题,后来老大很生气说:生产事故很严重,你们居然不重视 成立了一个应急小组,专门解决此问题,其中包括我 事故原因 经过 天没日没夜的艰苦奋斗,终于找到进程挂掉的原因,问题因我而起。大约去年 月,做一个项目,与大数据对接,把数据推给它,然在加 ...

2019-01-23 16:01 8 1272 推荐指数:

查看详情

生产安全事故等级划分

1.特别重大事故:30人以上死亡,或100人以上重伤(包括急性工业中毒,下同)或1亿元以上直接经济损失 2.重大事故:10人以上30人以下死亡,或50人以上100人以下重伤,或5000w-1亿以下直接经济损失 3.较大事故:3人以上10人以下死亡,或者10人以上50人以下重伤 ...

Tue May 12 15:25:00 CST 2020 0 633
一次生产事故的优化经历

在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者APP,在打开的时候标的就已经被抢光了,刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候也不就这样吗?随着活动 ...

Mon Feb 06 16:50:00 CST 2017 88 20906
restTemplate超时时间引发的生产事故

1、现象:   今天下午公司客户群里突然报警,说订单没有推送服务商,经排查发现是rabbitmq堵住了,查询elk和监控没有发现业务异常或超时日志。   通过rabbitmq后面发现一个队列有异常 ...

Fri May 01 06:07:00 CST 2020 0 1149
一次生产事故后感

今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
用long类型让我出了次生产事故,写代码还是要小心点

昨天发现线上试跑期的一个程序挂了,平时都跑的好好的,查了下日志是因为昨天运营跑了一家美妆top级淘品牌店,会员量近千万,一下子就把128G的内存给爆了,当时并行跑了二个任务,没辙先速写一段代码限流,后 ...

Mon Apr 27 15:41:00 CST 2020 17 3236
记一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...

Tue Feb 11 03:58:00 CST 2020 0 782
记一次生产kafka消息消费的事故

事故背景:   我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表(报表有误 ...

Wed Jun 12 18:07:00 CST 2019 0 571
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM