解Bug之路-记一次中间件导致的慢SQL排查过程 前言 最近发现线上出现一个奇葩的问题,这问题让笔者定位了好长时间,期间排查问题的过程还是挺有意思的,正好博客也好久不更新了,就以此为素材写出了本篇文章。 Bug现场 我们的分库分表中间件在经过一年的沉淀之后,已经到了比较稳定的阶段。而且经 ...
解Bug之路 记一次存储故障的排查过程 高可用真是一丝细节都不得马虎。平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug。偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查。今天,笔者就给大家带来一个存储偶发性故障的排查过程。 Bug现场 我们的积分应用由于量非常大,所以需要进行分库分表,所以接入了我们的中间件。一直稳定运行,但应用最近确经 ...
2020-10-14 10:44 12 1799 推荐指数:
解Bug之路-记一次中间件导致的慢SQL排查过程 前言 最近发现线上出现一个奇葩的问题,这问题让笔者定位了好长时间,期间排查问题的过程还是挺有意思的,正好博客也好久不更新了,就以此为素材写出了本篇文章。 Bug现场 我们的分库分表中间件在经过一年的沉淀之后,已经到了比较稳定的阶段。而且经 ...
上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...
公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已 ...
背景 近期被抓壮丁解决一个几年前的系统故障,经过反复排查多次监控后终于成功解决,记录分享一下心得吧! 故障描述 具体表现为在高峰访问期间,IIS直接报服务器处理503。 系统部署 采用ARR实现的IIS Sever Farm进行负载均衡 ...
山竹来临,窝在家里整理个人文档。 本篇文章主要讲解排查问题的思路,涉及linux 删除文件的原理、实例误删数据恢复、MySQL实例初始化参数优先级别等,虽然涉及知识点比较浅,但是个人觉得挺有 ...
背景说明 组织架构被拆分为多个微服务 需求: 一个输入框 查询 前后模糊查询 人员信息(工号、姓名),前后模糊查询 单位名称。 跨库平级查询!! ...
解Bug之路-记一次线上请求偶尔变慢的排查 前言 最近解决了个比较棘手的问题,由于排查过程挺有意思,于是就以此为素材写出了本篇文章。 Bug现场 这是一个偶发的性能问题。在每天几百万比交易请求中,平均耗时大约为300ms,但总有那么100多笔会超过1s,让我们业务耗时监控的99.99线变得 ...
解Bug之路-记一次调用外网服务概率性失败问题的排查 前言 和外部联调一直是令人困扰的问题,尤其是一些基础环境配置导致的问题。笔者在一次偶然情况下解决了一个调用外网服务概率性失败的问题。在此将排查过程发出来,希望读者遇到此问题的时候,能够知道如何入手。 起因 笔者的新系统上线,需要PE执行 ...