原文:一次线上接口超时的排查过程

事件还原 昨天下午,收到一个 的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。 诧异之后,继续处理手头的工作。 一小时过后,又收到同样的告警,显然不是偶尔,肯定是哪儿出问题了,于是开始排查。 报警的接口是一个Controller层ControllerA的getControllerAMethod接口,其调用了多个微 ...

2019-09-29 00:17 2 1588 推荐指数:

查看详情

一次线上内存泄漏问题的排查过程

近期需要对公司的接口线上的巡查监控,需要写一个脚本放到服务器上,定时运行脚本监测线上接口是否正常。测试的接口不是HTTP协议,而是公司基于TCP协议开发的私有协议,因此不能直接用现成的一些接口测试工具,需要自己写代码来调用接口。由于是私有协议,为了方便各业务项目进行通信,开发部门统一提供了一个 ...

Mon Jul 08 22:31:00 CST 2019 0 637
一次线上崩溃问题的排查过程

大家好,我是雨乐! 前几天,突然收到报警,线上服务崩溃,然后自动重启。 由于正值双十一期间,业务以稳定为主,线上服务崩溃,这可不是一件小事,赶紧登陆线上服务器,分析原因,迅速解决。 借助这篇文章,记录下整个崩溃的分析和解决过程。 收到报警 上午上班后,正在划水,突然收到邮件报警 ...

Wed Nov 10 23:54:00 CST 2021 0 811
记录一次http网络超时排查过程

微信公众号:内核小王子 觉得可以的话欢迎关注 场景:公司对外网关对很多外部商户开放,运行多年一直正常,昨天某一个客户调用我们接口的时候频繁报connectiontimeout,异常如下: 该异常来自于httpclient,原因是创建连接超时,也就是tcp进行三握手的时候失败 ...

Tue May 21 22:50:00 CST 2019 0 829
一次排查线上接口偶发异常耗时引起的思考!

一、引子 这要从线上的一个接口偶发异常耗时说起,事情往往不是你想象的样子,尤其是在排查问题的时候,切忌有先入为主的的某些判断。 二、问题: 接口监控图:显示每天总会有那么几次耗时特别长的请求。 三、排查: 1、直观的认识是“偶发”,每天零星的几个,不规律。 对于这种情况,第一感觉 ...

Sat Jul 11 10:04:00 CST 2020 0 922
一次故障排查过程

上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...

Fri Jan 25 20:50:00 CST 2019 2 969
一次奇怪的的bug排查过程

公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已经支付的订单,不能被撤消,只能退款或者部分退款。 这两条log虽然没有太大问题,关键问题 ...

Tue Nov 30 18:00:00 CST 2021 2 1723
原创 记录一次线上Mysql慢查询问题排查过程

背景 前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: 表数据量200W左右,不是很大,而且是根据主键更新。 问题排查 排查Mysql数据库 我看到sql后第一反应就是是不是数据库出问题了,每个小时都有业务,偏偏白天业务高峰时间段 ...

Fri Mar 27 21:00:00 CST 2020 0 964
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM