原文:记一次生产请求耗时的问题

最近发现lb上记录的request time比upstream response time大的比较多,例如upstream response time记录是 . ,request time记录的就是 . 等等。整个耗时很反常。而且出现这个问题基本上都是一个返回值比较大的接口,基本上返回值是 K左右。领导让定位一下这个问题。 先说下我们的架构的背景,是这样的 阿里云的SLB 我们自己的LB WEB ...

2019-03-30 08:34 3 1869 推荐指数:

查看详情

一次生产dubbo线程池耗尽的问题

问题:   dubbo线程池耗尽,活跃线程数超过线程池最大线程数(dubbo默认线程池最大线程数为200) 登录服务提供者所在服务器 通过命令行连接dubbo: 查看dubbo活跃线程: 可以通过增加线程池最大线程数来解决 ...

Fri Apr 03 19:04:00 CST 2020 0 3640
复盘一次生产问题

有整整 10 天木有更文了,这段时间确实比较忙。 有加我微信的朋友知道我上周末出去春游了,部门组织去了趟外伶仃岛,环境挺不错的,这段时间去的人也比较少,值得去玩。 今天讲讲上周末一次生产问题的复盘。 1 事情经过 周日中午从外伶仃岛回来就直奔公司,因为生产出了些问题问题 ...

Mon Mar 25 17:18:00 CST 2019 1 755
一次生产环境presto删表失败的问题

场景,开发用java程序连接presto创建一个表,这个表在hdfs的权限为: 然后用presto去删除这个表 报错,没有权限删除,查看上一级目录权限,发现权限正常 直连hive删表 ...

Fri May 31 02:06:00 CST 2019 2 1451
【疑难杂症】一次生产问题之事务超时

现象和猜测 我们每日日终跑批,跑批的第一步要去NFS文件系统检查信贷还款文件的标志文件,即dbas.ok文件,以便做相关账务处理,该代码使用了while(true),直到file.exist()返回 ...

Thu Nov 30 01:45:00 CST 2017 0 1020
一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次生产线程数耗尽,导致内存溢出(outOfMemoryError)问题及解决

问题:   数据源连接池线程数最大连接数最初设置300,但是一周有2-3发生活跃连接数超过最大线程数,导致线程堵塞,服务查询等待超时,所以运维将最大线程数调至1500,这样导致JVM创建的线程数大大增多,原先配置的JVM内存不够使用,导致内存溢出,无法创建线程。 解决:   后将最大线程数 ...

Fri Apr 03 19:55:00 CST 2020 0 2556
一次生产环境大面积404问题

写在前面 发布到线上的接口服务一直好端端的,今天突然运营反馈说很多功能无法正常使用。经过排查,发现前端调用后端接口时,部分接口出现404的现象。今天,我到公司比较晚,肯定是哪个小伙伴昨晚下班,走出办公室前没有祈祷服务器不要出问题。要把这个人揪出来,吊在服务器上——祭天! 文章已收 ...

Tue Mar 30 03:43:00 CST 2021 0 587
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM