原文:生产环境出现事故,开发和运维都有责任,到底该谁背锅

发生一档子事情,公司技术团队之中有两个部门,一个开发一个运维,开发负责公司项目软件项目实现,运维负责项目运行生产环境服务器与数据的管理与维护。 前两天生产环境发生一起故障,项目依赖的redis服务器由于内存不足而出现写入故障,有一批用户丢失了一小时的数据, 公司发出批评通告, 运维全责,运维部门涉事相关员工与领导统统被罚。 为什么运维被罚,因为服务器内存不足会报警,向负责服务器的运维人员发出警告短 ...

2019-01-18 10:58 32 4149 推荐指数:

查看详情

开发导致的内存泄露问题,小伙伴儿这样排查不

前些日子小组内安排值班,轮流看顾我们的服务,主要做一些报警邮件处理、Bug排查、运营issue处理的事。工作日还好,无论干什么都要上班的,若是轮到周末,那这一天算是毁了。 不知道是公司网络广了就这样还是网络组不给力,网络总有问题,不是这边交换机脱网了,就是那边路由器坏了,还偶发地各种超时 ...

Fri Nov 27 17:09:00 CST 2020 2 289
Nginx 转发时的一个坑,居然让我!!

最近遇到一个 Nginx 转发的坑,一个请求转发到 Tomcat 时发现有几个 http header 始终获取不到,导致线上出现 bug,说不是他的问题,这个了。 新增的几个 header 是这样的: accept_sign accept_token ...

Thu Dec 10 00:29:00 CST 2020 5 2011
这样查生产问题,不做

技术的太多,到底该不该你? 一大早就被微信群炸醒,开发短信服务的猿妹子,在公司微信群里说: 短信的生产环境服务器, CPU 占用率过高,疯狂报警,应该是你们昨天上线看门狗导致的(看门狗:守护短信服务的监控应用,后续有机会再进行分享)。 没错,昨天确实给短信服务装上了看门狗。但是看门狗服务 ...

Tue Apr 21 22:44:00 CST 2020 26 3458
的艺术:需求临时变更上线后出事故谁的

按照已确认的需求,代码都快要上线了,产品提出需求变更,匆匆改完代码上线后导致重大 bug,责任)应该是研发还是产品来呢? 工作中是常态。柱哥想说:不可怕,了无数口还没有一点长进才是最可怕的。 下面我们聊聊如何更有效的: 分原则 首先,我们需要明确责任原则:谁执行 ...

Mon Jun 01 18:19:00 CST 2020 0 1542
线上事故竟然是自己的!!!

前言 前段时间,我们线上系统出现了一个事故:用户创建了商品,在商城的商品列表页看不到,也搜索不到。、 这个问题持续了大概半个小时,最后发现竟然是我的。 这个事情怎么说呢,完全是我自己把自己坑了。到底怎么回事呢? 1. 从需求说起 1.1 背景 由于我们这个迭代是个大版本,上线的日子 ...

Mon Apr 11 05:35:00 CST 2022 1 740
为什么PUSH推送要经常

前言 只有光头才能变强。 文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y 自从做了推送以后,每隔一段时间就发现有各大的公司推送事故出现。 你问我做开发的慌不慌,我当然慌得一批 ...

Wed May 13 17:18:00 CST 2020 0 876
RedisTemplate:我不,是你用错了

今天分享一个RedisTemplate的问题,感兴趣的可以继续看下去了,不感兴趣的继续撩妹去吧! 如下图:一位朋友给了我一个报错的图片,为啥为啥取不到值? 我也有点懵,第一反应就是RedisT ...

Wed Mar 11 21:51:00 CST 2020 2 1066
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM