原文:记一次线上崩溃问题的排查过程

大家好,我是雨乐 前几天,突然收到报警,线上服务崩溃,然后自动重启。 由于正值双十一期间,业务以稳定为主,线上服务崩溃,这可不是一件小事,赶紧登陆线上服务器,分析原因,迅速解决。 借助这篇文章,记录下整个崩溃的分析和解决过程。 收到报警 上午上班后,正在划水,突然收到邮件报警,如下: 问题分析 马上登录线上服务器,gdb调试堆栈信息。 堆栈信息如下: x ab a f inraise from l ...

2021-11-10 15:54 0 811 推荐指数:

查看详情

一次线上内存泄漏问题排查过程

近期需要对公司的接口做线上的巡查监控,需要写一个脚本放到服务器上,定时运行脚本监测线上接口是否正常。测试的接口不是HTTP协议,而是公司基于TCP协议开发的私有协议,因此不能直接用现成的一些接口测试工具,需要自己写代码来调用接口。由于是私有协议,为了方便各业务项目进行通信,开发部门统一提供了一个 ...

Mon Jul 08 22:31:00 CST 2019 0 637
一次慢sql问题排查过程

背景说明   组织架构被拆分为多个微服务 需求: 一个输入框 查询 前后模糊查询 人员信息(工号、姓名),前后模糊查询 单位名称。 跨库平级查询!! ...

Tue Dec 21 00:56:00 CST 2021 0 1023
一次OOM问题排查过程

上周运维反馈线上程序出现了OOM,程序日志中的输出为 看线程名称应该是tomcat的nio工作线程,线程在处理程序的时候因为无法在堆中分配更多内存出现了OOM,幸好JVM启动参数配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打开拿到的hprof文件进行分析 ...

Thu May 02 04:05:00 CST 2019 0 3052
一次线上接口超时的排查过程

1、事件还原 昨天下午,收到一个504的告警,显然这是一个超时告警。当时由于手头有其他事情,没在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我写的,第一反应有点诧异。 诧异之后,继续处理手头的工作。 一小时过后,又收到同样的告警,显然不是偶尔,肯定是哪儿出问题了,于是开始排查。 报警 ...

Sun Sep 29 08:17:00 CST 2019 2 1588
原创 记录一次线上Mysql慢查询问题排查过程

背景 前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: 表数据量200W左右,不是很大,而且是根据主键更新。 问题排查 排查Mysql数据库 我看到sql后第一反应就是是不是数据库出问题了,每个小时都有业务,偏偏白天业务高峰时间段 ...

Fri Mar 27 21:00:00 CST 2020 0 964
线上问题排查过程

线上问题排查过程1、测试统一收口,2、产品判断是否正常逻辑 | 测试判断是否已经用例覆盖 | 技术排查日志或代码变更 ...

Thu Dec 31 01:37:00 CST 2020 0 420
MySQL-一次备份失败的排查过程

山竹来临,窝在家里整理个人文档。 本篇文章主要讲解排查问题的思路,涉及linux 删除文件的原理、实例误删数据恢复、MySQL实例初始化参数优先级别等,虽然涉及知识点比较浅,但是个人觉得挺有 ...

Thu Sep 20 17:48:00 CST 2018 0 2438
一次Xmrig挖矿木马排查过程

问题现象 Linux 服务器收到报警信息,主机 CPU 跑满。 自动创建运行 Docker 容器 xmrig, 导致其他运行中容器被迫停止。 问题原因 通过 top 命令可以看到有一个 xmrig 进程占用了99%的 CPU。 经定位,该进程是一个挖矿木马程序,通过上述截图 ...

Thu Jun 27 00:27:00 CST 2019 0 1750
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM