原文:记一次一个枚举引发线上事故风暴

背景 年 月 号下午 点左右一个我们服务的调用方通知我们他们在调用服务接口时出现了大量的异常和通知,并且错误返回值都是 显示未设置结束日期 问题定位 收到调用方的消息后,我立即展开了问题的排查 通过服务管理平台查看服务是否出现超时及比对今天和昨天接口整体的响应时长,但是排查后发现服务正常。 通过调用方提供异常用户id从日志中排查是否出现异常,排查发现日志中也打印了未设置结束日期的错误信息,但是还是 ...

2018-08-16 16:39 6 806 推荐指数:

查看详情

一次线上事故的JVM内存学习

今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个问题:为什么会频繁GC 有过JVM经验的开发者都应该知道,GC是在内存不够时,JVM自动进行 ...

Fri May 25 04:24:00 CST 2018 0 1054
一次dirty_ratio引起的线上事故

故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...

Mon Sep 14 21:12:00 CST 2020 0 431
go中一次http超时引发事故

一次http超时引发事故 前言 分析下具体的代码实现 服务设置超时 客户端设置超时 http.client context http.Transport 问题 总结 ...

Wed Jun 02 18:19:00 CST 2021 1 2707
【MySQL】一次线上重大事故:二狗子竟然把线上数据库删了!!

写在前面 估计二狗子这几天是大姨夫来了,心情很郁闷,情绪也很低落,工作的时候也有点心不在焉。让他发个版本,结果,一行命令下去把线上的数据库删了!你没听错:是删掉了线上的数据库!运营那边顿时炸了锅:怎么回事?系统不能访问了!什么情况啊?!很多客户都在投诉了!! 尽管运营那边慌慌张张 ...

Thu Aug 20 06:36:00 CST 2020 1 1247
一次线上事故的处理流程和总结

1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故过程分析: ①、根据异常日志 ...

Tue Jul 31 18:00:00 CST 2018 0 1408
ThreadLocal引起的一次线上事故

> 线上用户存储数据后查看提示无权限 前言 不知道什么时候年轻的我曾一度认为Java没啥难度,没有我实现不了的需求,没有我解不了的bug 直到我遇到至今难忘的一个bug 。 线上用户存储数据后查看提示无权限 初次定位 明明自己添加的数据,为什么提示 ...

Fri May 14 16:48:00 CST 2021 3 766
一次订单号事故

一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...

Sat Aug 22 00:27:00 CST 2020 37 2376
一次Spring配置事故

在引入Spring的Validated时,需要声明如下bean: 出于偷懒,放在了如下的一个初始化中: 配置好后,@Validated生效了,但是aop,事务 ...

Sun Aug 26 07:32:00 CST 2018 0 12529
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM