原文:记一次线上由nginx upstream keepalive与http协议"协作"引起的接口报错率飙高事件

年前接到个任务,说要解决线上一些手机客户端接口报错率很高的问题.拿到了监控邮件,粗略一看,各种 的错误率,简直触目惊心.这种疑难杂症解决起来还是挺好玩的,于是撸起袖子action. 最终的结果虽然报错问题得到了解决,但是感觉并不是最根本的解决方案. 下面把解决的过程和目前的问题放出来一起探讨下. 第一步,针对错误进行跟踪,初步定位问题 由于之前客户端同学在请求中添加了唯一标示request id. ...

2017-01-19 10:16 3 28741 推荐指数:

查看详情

一次JAVA进程导致Kubernetes节点CPU的排查与解决

一、发现问题 在一次系统上线后,我们发现某几个节点在长时间运行后会出现CPU持续飙升的问题,导致的结果就是Kubernetes集群的这个节点会把所在的Pod进行驱逐(调度);如果调度到同样问题的节点上,也会出现Pod一直起不来的问题。我们尝试了杀死Pod后手动调度的办法(label ...

Fri Apr 10 22:12:00 CST 2020 1 1940
一次jvm疯狂gc导致CPU的问题解决

记录一次java虚拟机CPU的异常处理 线上web服务器不时的出现非常卡的情况,登录服务器top命令发现服务器CPU非常的, 重启tomcat之后CPU恢复正常,半天或者一天之后又会偶现同样的问题。 解决问题首先要找到问题的爆发点,对于偶现的问题是非常难于定位的。 重启服务器之后只能 ...

Wed Jan 01 00:16:00 CST 2020 0 2159
一次线上商城系统并发的优化

对于线上系统调优,它本身是个技术活,不仅需要很强的技术实战能力,很强的问题定位,问题识别,问题排查能力,还需要很丰富的调优能力。 本篇文章从实战角度,从问题识别,问题定位,问题分析,提出解决方案,实施解决方案,监控调优后的解决方案和调优后的观察等角度来与大家一起交流分享本次线上 ...

Fri Jul 03 02:03:00 CST 2020 43 5282
一次生产环境docker服务CPU排查

今天早上,运维同学发现生产某个服务 CPU 持续,于是开始进行排查: 1、首先使用 top 命令,查看 CPU 占用的进程,得到进程 ID    2、根据上一步找到的进程ID,ps -ef | grep [进程ID] 找到对应程序    3、进入程序对应docker容器 ...

Sat Dec 25 01:25:00 CST 2021 0 1148
一次线上报错日志问题排查

今天阳光明媚,掐指一算,今天比较适合划水。 于是早上到公司之后先是蹲了厕所,然后就准备翻阅公众号推文。 看的正嗨,突然钉钉群里开始响了, 生产日志群报了一条警告,如下: 报错信息很明确 定位到业务代码如下 一个普普通通的map的put操作,怎么就报错了呢?继续往下 ...

Thu Apr 01 23:06:00 CST 2021 21 1547
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM