原文:记一次最近生产环境项目中发生的两个事故及处理方法

前言 年前放假的几个月内,公司项目发生了两次事故,虽然与我无关,但事故发生后整个团队都受到影响,主管需要给客户写事故报告,客户甚至打电话给公司领导严肃批评,我想经历过这种事的朋友不在少数,但很多刚入行的朋友可能不太清楚其中利害,这里我分享出来希望对大家有所帮助。 事故经过 三个月内一共发生两次生产环境事故,一个是接口超时导致服务雪崩,一个是锁表导致核心功能停滞一小时。 接口超时事故 现象 年 月 ...

2022-02-06 18:30 65 7153 推荐指数:

查看详情

一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次生产kafka消息消费的事故

事故背景:   我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表(报表有误 ...

Wed Jun 12 18:07:00 CST 2019 0 571
一次git amend事故处理方案

一、问题回顾 问题是git commit --amend 引起的。 一条commit已经push到远端develop了,但是后来又在这条commit上进行了amend操作,导致这条commit的哈希码发生了变化。并且后续又在这条commit之后进行了N条commit操作。 < ...

Tue Aug 30 17:04:00 CST 2016 0 10643
一次生产事故后感

今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
一次流量暴增造成的“生产事故”优化经历!

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 前言 “在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者 APP,在打开的时候标的就已经被抢光了。 刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候不也是 ...

Fri Nov 24 18:22:00 CST 2017 4 899
一次mq无法正常生产消息的事故排查过程

早上上班后得知,服务费未同步到代理商系统。查看draft_server系统生产环境的log,显示在往RabbitMQ推数据时出现异常:no route to host。 打开vpn连接到生产环境,用本地test程序尝试往生产的mq推数据,发现正常。接下来,rpc调用生产 ...

Sat Aug 03 00:07:00 CST 2019 0 507
深入认识二进制序列化--一次生产事故的思考

一 概要 二进制序列化是公司内部自研微服务框架的主要的数据传输处理方式,但是普通的开发人员对于二进制的学习和了解并不深入,容易导致使用过程中出现了问题却没有分析解决的思路。本文从一次生产环境事故引入这个话题,通过对于事故的分析过程,探讨了平时没有关注到的一些技术要点。二进制序列化结果并不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM