原文:记一次网络请求连接超时的事故

从HTTP请求超时 重试机制 操作系统网络等层面剖析了事故的原因,最终解决业务问题。 这里先抛两个问题: 你遭遇过由于网络连接或请求超时造成的生产事故吗 你知道操作系统默认的网络连接超时是多少秒 问题背景 最近同事出现这么一个问题,简单业务场景: 服务A使用HTTP请求服务B接口m。服务A起了一个定时任务Task: 从db查询数据总共有 条,每条记录对应一次请求,循环调用m接口。服务B收到请求会使 ...

2020-12-17 14:54 0 351 推荐指数:

查看详情

go中一次http超时引发的事故

一次http超时引发的事故 前言 分析下具体的代码实现 服务设置超时 客户端设置超时 http.client context http.Transport 问题 总结 ...

Wed Jun 02 18:19:00 CST 2021 1 2707
一次订单号事故

一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...

Sat Aug 22 00:27:00 CST 2020 37 2376
一次Spring配置事故

在引入Spring的Validated时,需要声明如下bean: 出于偷懒,放在了如下的一个初始化中: ...

Sun Aug 26 07:32:00 CST 2018 0 12529
一次kubernetes集群异常: kubelet连接apiserver超时

Background kubernetes是master-slave结构,master node是集群的大脑, 当master node发生故障时整个集群都"out of control"。master node中最重要的当属apiserver组件, 它负责处理所有请求, 并持久化状态到etcd ...

Wed May 29 00:00:00 CST 2019 2 4194
一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次线上事故的JVM内存学习

今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个 ...

Fri May 25 04:24:00 CST 2018 0 1054
一次dirty_ratio引起的线上事故

故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...

Mon Sep 14 21:12:00 CST 2020 0 431
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM