原文:【故障公告】docker swarm 集群问题造成新版博客后台故障

非常抱歉,今天下午 : : 左右,由于 docker swarm 集群的突发不稳定问题造成新版博客后台 目前处于灰度发布阶段 无法正常使用,由此给您带来麻烦,请您谅解。 出故障期时,新版博客后台的 个容器都无法正常启动。 发现问题后,我们进行了删除 stack 并重新部署的操作。 重新部署后发现 prod swarm w 节点上的容器可以正常启动,而 prod swarm w 节点上的容器问题依旧 ...

2019-11-25 17:53 45 3414 推荐指数:

查看详情

故障公告docker swarm 集群问题引发的故障

我们的生产环境部署了 2 个 docker swarm 集群集群 swarm-a 用于专门跑博客站点,集群 swarm-b 用于跑其他站点,manager 节点用了阿里云包月服务器,worker 节点用了阿里云抢占式实例。 今天 11:03 收到阿里云的短信通知“您的抢占式实例:实例ID(实例 ...

Tue Oct 15 23:56:00 CST 2019 14 2064
故障公告】10:30-10:45 左右 docker swarm 集群节点问题引发故障

非常抱歉,今天 10:30-10:45 左右由于 docker swarm 集群节点出现问题造成博客之外的站点出现访问异常,由此给您带来很大的麻烦,请您谅解。 故障开始时出现有时访问正常有时访问出现 502 或 500 ,当时我们就判断是某个节点出现问题,但无法直接定位出哪个节点,只能依次 ...

Mon Sep 03 19:16:00 CST 2018 2 725
故障公告新版博客后台部署时的配置问题引发故障

最近,我们对新版博客后台(Angular 8.2.7 + .NET Core 3.0)进行了灰度发布,如果您访问博客后台时跳转到 https://i-beta.cnblogs.com/ ,说明使用的就是新版博客后台。 今天我们在一次基于 gitlab-ci 的自动化发布过程中,由于操作问题 ...

Fri Nov 15 06:55:00 CST 2019 5 1255
故障公告】redis内存耗尽造成博客后台无法保存

非常抱歉,今天上午11:00~11:30左右,由于 redis 服务器内存耗尽造成博客后台故障——保存博文时总是提示“请求太过频繁,请稍后再试”,由此给您带来麻烦,请您谅解。 由于 redis 监控报警配置没有及时更新,当 redis 服务器内存耗尽时我们没有收到报警通知,所以未能及时发现问题 ...

Thu Dec 24 20:07:00 CST 2020 54 5899
迟到的故障公告:错误的缓存数据引发新版博客后台发布后的故障

10月18日晚上 22:00 ,我们对处于灰度发布阶段的新版博客后台(Angular 8.2.7 + .NET Core 3.0)进行了一次发布操作,在发布后由于清除缓存 web api 的一个 bug 造成在发布后通过新版博客后台修改的博文无法访问(404错误);在发现问题后,我们回退至发布之前 ...

Thu Nov 21 00:46:00 CST 2019 13 1711
云计算之路-阿里云上:部分服务器未及时续费造成docker swarm集群故障

非常非常抱歉,由于我们的疏忽 —— docker swarm 集群中的 2 台服务器没有及时续费,造成在夜里0点被自动关机,从而引发整个 docker swarm 集群故障造成今天凌晨 0:30 ~ 7:50 左右跑在集群上的站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解。受这次故障影响 ...

Thu Feb 01 17:21:00 CST 2018 23 1471
云计算之路-阿里云上:docker swarm 集群故障与异常

在上次遭遇 docker swarm 集群故障后,我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce 。 前天晚上22:00之后集群中的2个节点突然出现CPU波动,在CPU波动之后,在凌晨夜深人静、访问量极低的时候,整个集群出现了故障,访问 ...

Fri Jan 19 20:52:00 CST 2018 5 2269
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM