一、背景: 基于WebSocket长连接的消息服务进行全链路压测,目标是实现最少100W长连接下压测服务的各个接口TPS,QPS及其稳定性和资源消耗情况。 二、全链路架构图 ...
在最近的一次百万长连接压测中, C G 的四台 Nginx 频繁出现 OOM,出现问题时的内存监控如下所示。 排查的过程记录如下。 现象描述 这是一个 websocket 百万长连接收发消息的压测环境,客户端 jmeter 用了上百台机器,经过四台 Nginx 到后端服务,简化后的部署结构如下图所示。 在维持百万连接不发数据时,一切正常,Nginx 内存稳定。在开始大量收发数据时,Nginx 内 ...
2020-09-28 21:36 0 469 推荐指数:
一、背景: 基于WebSocket长连接的消息服务进行全链路压测,目标是实现最少100W长连接下压测服务的各个接口TPS,QPS及其稳定性和资源消耗情况。 二、全链路架构图 ...
一、业务背景+系统架构 本次场景为kafka+storm+redis+hbase,通过kafka的数据,进入storm的spout组件接收,转由storm的Bolt节点进行业务逻 ...
前言 遇到Mysql死锁问题,我们应该怎么排查分析呢?之前线上出现一个insert on duplicate死锁问题,本文将基于这个死锁问题,分享排查分析过程,希望对大家有帮助。 死锁案发还原 表结构: 隔离级别: 数据库版本: 关闭自动提交: 表中的数据 ...
前言 遇到Mysql死锁问题,我们应该怎么排查分析呢?之前线上出现一个insert on duplicate死锁问题,本文将基于这个死锁问题,分享排查分析过程,希望对大家有帮助。 死锁案发还原 表结构: 隔离级别: 数据库版本: 关闭自动提交 ...
上周运维反馈线上程序出现了OOM,程序日志中的输出为 看线程名称应该是tomcat的nio工作线程,线程在处理程序的时候因为无法在堆中分配更多内存出现了OOM,幸好JVM启动参数配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打开拿到的hprof文件进行分析 ...
以jpress新增文章接口为例 目录 1、需求分析 2、场景设计 3、分析结果生成报告 1、需求分析 需求人员一般对系统提出性能要求:某接口10秒达到100并发,响应时间不能超过3秒,10分钟稳定运行100用户,error%不超过0.01%,cpu占用率不能超过80 ...
现象:通过nginx访问,偶现502 排查步骤: 1、查看日志,无异常日志打印 2、抓包分析,发现发送http请求后,被源站直接发fin。 3、注释代码关键逻辑,测试。定位到是access.lua阶段处理的问题。但因为没有日志,代码段太多,只能逐步排查 ...
1. 说明 Connection reset by peer异常算是老生常谈的问题了,在度娘上一搜一大堆结果,今天借助我们测试环境的一个遇到的现象,给大家一个不一样的视角,顺带总结下我的解决方案。 2. 背景简述 近日在测试环境,组员在做某个项目稳定性场景测试,执行1小时后TPS断崖 ...