记一次http超时引发的事故 前言 分析下具体的代码实现 服务设置超时 客户端设置超时 http.client context http.Transport 问题 总结 ...
从HTTP请求超时 重试机制 操作系统网络等层面剖析了事故的原因,最终解决业务问题。 这里先抛两个问题: 你遭遇过由于网络连接或请求超时造成的生产事故吗 你知道操作系统默认的网络连接超时是多少秒 问题背景 最近同事出现这么一个问题,简单业务场景: 服务A使用HTTP请求服务B接口m。服务A起了一个定时任务Task: 从db查询数据总共有 条,每条记录对应一次请求,循环调用m接口。服务B收到请求会使 ...
2020-12-17 14:54 0 351 推荐指数:
记一次http超时引发的事故 前言 分析下具体的代码实现 服务设置超时 客户端设置超时 http.client context http.Transport 问题 总结 ...
记一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...
在引入Spring的Validated时,需要声明如下bean: 出于偷懒,放在了如下的一个初始化中: ...
Background kubernetes是master-slave结构,master node是集群的大脑, 当master node发生故障时整个集群都"out of control"。master node中最重要的当属apiserver组件, 它负责处理所有请求, 并持久化状态到etcd ...
池连接失败 场景复原 先来看来伪代码 一个全局的map,然后WaitGroup开启一组协程并 ...
写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可 ...
今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个 ...
故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...