【文章推荐】记一次线上由nginx upstream keepalive与http协议"协作"引起的接口报错率飙高事件

原文：记一次线上由nginx upstream keepalive与http协议"协作"引起的接口报错率飙高事件

年前接到个任务,说要解决线上一些手机客户端接口报错率很高的问题.拿到了监控邮件,粗略一看,各种的错误率,简直触目惊心.这种疑难杂症解决起来还是挺好玩的,于是撸起袖子action. 最终的结果虽然报错问题得到了解决,但是感觉并不是最根本的解决方案. 下面把解决的过程和目前的问题放出来一起探讨下. 第一步,针对错误进行跟踪,初步定位问题由于之前客户端同学在请求中添加了唯一标示request id. ...

2017-01-19 10:16 3 28741 推荐指数：

查看详情

线上nginx的一次“no live upstreams while connecting to upstream ”分析

线上nginx的一次“no live upstreams while connecting to upstream ”分析线上nginx的一次“no live upstreams while connecting to upstream ”分析-飞翔的单车-51CTO博客 ...

线上nginx的一次“no live upstreams while connecting to upstream ”分析

参考：https://www.nginx.com/blog/tuning-nginx/ https://xiezefan.me/2017/09/27/nginx-502-bug-trace/ https://www.cnblogs.com/dadonggg/p/8778318.html ...

记一次dirty_ratio引起的线上事故

; MEM > 85% 故障根因 Kernel报错如下: 默认情况下， Linux会最多 ...

记一次JAVA进程导致Kubernetes节点CPU飙高的排查与解决

一、发现问题在一次系统上线后，我们发现某几个节点在长时间运行后会出现CPU持续飙升的问题，导致的结果就是Kubernetes集群的这个节点会把所在的Pod进行驱逐（调度）；如果调度到同样问题的节点上，也会出现Pod一直起不来的问题。我们尝试了杀死Pod后手动调度的办法（label ...

记一次jvm疯狂gc导致CPU飙高的问题解决

记录一次java虚拟机CPU飙高的异常处理线上web服务器不时的出现非常卡的情况，登录服务器top命令发现服务器CPU非常的高，重启tomcat之后CPU恢复正常，半天或者一天之后又会偶现同样的问题。解决问题首先要找到问题的爆发点，对于偶现的问题是非常难于定位的。重启服务器之后只能 ...

记一次线上商城系统高并发的优化

对于线上系统调优，它本身是个技术活，不仅需要很强的技术实战能力，很强的问题定位，问题识别，问题排查能力，还需要很丰富的调优能力。本篇文章从实战角度，从问题识别，问题定位，问题分析，提出解决方案，实施解决方案，监控调优后的解决方案和调优后的观察等角度来与大家一起交流分享本次线上 ...

记一次生产环境docker服务CPU飙高排查

今天早上，运维同学发现生产某个服务 CPU 持续飙高，于是开始进行排查： 1、首先使用 top 命令，查看 CPU 占用高的进程，得到进程 ID 　　 2、根据上一步找到的进程ID，ps -ef | grep [进程ID] 找到对应程序　　 3、进入程序对应docker容器 ...

记一次线上报错日志问题排查

今天阳光明媚，掐指一算，今天比较适合划水。于是早上到公司之后先是蹲了厕所，然后就准备翻阅公众号推文。看的正嗨，突然钉钉群里开始响了，生产日志群报了一条警告，如下：报错信息很明确定位到业务代码如下一个普普通通的map的put操作，怎么就报错了呢？继续往下 ...

原文：记一次线上由nginx upstream keepalive与http协议"协作"引起的接口报错率飙高事件

相关推荐

相关标签