原文:[谨记]记线上事故并分析原因

昨天下午大神把组内几十号人召集在一起开Online bug分析大会,主要是针对近期线上事故从事故原因和解决方案两个维度来分析 对金融软件来说,每一次的线上事故都有可能给公司带来重大的损失,少扣了用户的钱,为公司带来资金方面的亏损 多扣了用户的钱,则为带来不必要的合约或法律纠纷,故测试金融软件不比其他行业的软件,后者线上bug大多不会直接引起资金方面损失,最多就是用户体验不好,功能没有实现,导致用户 ...

2018-01-25 13:33 7 1243 推荐指数:

查看详情

一次线上事故的JVM内存学习

今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个问题:为什么会频繁GC 有过JVM经验的开发者都应该知道,GC是在内存不够时,JVM自动进行 ...

Fri May 25 04:24:00 CST 2018 0 1054
一次dirty_ratio引起的线上事故

故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...

Mon Sep 14 21:12:00 CST 2020 0 431
一次一个枚举引发线上事故风暴

背景 2018年8月15号下午6点左右一个我们服务的调用方通知我们他们在调用服务接口时出现了大量的异常和通知,并且错误返回值都是“显示未设置结束日期” 问题定位 收到调用方的消息后,我立即展 ...

Fri Aug 17 00:39:00 CST 2018 6 806
【MySQL】一次线上重大事故:二狗子竟然把线上数据库删了!!

写在前面 估计二狗子这几天是大姨夫来了,心情很郁闷,情绪也很低落,工作的时候也有点心不在焉。让他发个版本,结果,一行命令下去把线上的数据库删了!你没听错:是删掉了线上的数据库!运营那边顿时炸了锅:怎么回事?系统不能访问了!什么情况啊?!很多客户都在投诉了!! 尽管运营那边慌慌张张 ...

Thu Aug 20 06:36:00 CST 2020 1 1247
线上事故竟然是自己的锅!!!

前言 前段时间,我们线上系统出现了一个事故:用户创建了商品,在商城的商品列表页看不到,也搜索不到。、 这个问题持续了大概半个小时,最后发现竟然是我的锅。 这个事情怎么说呢,完全是我自己把自己坑了。到底怎么回事呢? 1. 从需求说起 1.1 背景 由于我们这个迭代是个大版本,上线的日子 ...

Mon Apr 11 05:35:00 CST 2022 1 740
一次苏宁小店事故分析和总结

转java 3年了,一个最近的坑; 临近818,苏宁小店线上 app 搞了个秒杀活动,后台服务出现了异常。 活动是周五 10 点,收到了系统的告警短信,同事开始有人在公司豆芽(苏宁内部通信工具)反馈有部分用户下单失败; 在监控仪表盘上也可以看到访问量开始剧增 ...

Mon Aug 27 23:25:00 CST 2018 2 2071
Spring+SpringMVC+MyBatis+easyUI整合进阶篇(八)线上Mysql数据库崩溃事故原因和处理

前文提要 承接前文《一次线上Mysql数据库崩溃事故的记录》,在文章中讲到了一次线上数据库崩溃的事件记录,建议两篇文章结合在一起看,不至于摸不着头脑。 由于时间原因,其中只讲了当时的一些经过以及我当时的一些心理活动,至于原因和后续处理步骤并没有在文章中很清晰的写出来,以致于很多朋友说看得 ...

Mon Nov 13 16:34:00 CST 2017 0 3007
一次线上事故的处理流程和总结

1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故过程分析: ①、根据异常日志 ...

Tue Jul 31 18:00:00 CST 2018 0 1408
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM