非常抱歉,今天 10:30-10:45 左右由于 docker swarm 集群节点出现问题,造成除博客之外的站点出现访问异常,由此给您带来很大的麻烦,请您谅解。 故障开始时出现有时访问正常有时访问出现 502 或 500 ,当时我们就判断是某个节点出现问题,但无法直接定位出哪个节点,只能依次 ...
我们的生产环境部署了 个 docker swarm 集群,集群 swarm a 用于专门跑博客站点,集群 swarm b 用于跑其他站点,manager 节点用了阿里云包月服务器,worker 节点用了阿里云抢占式实例。 今天 : 收到阿里云的短信通知 您的抢占式实例:实例ID 实例名称 因库存变化,即将进入释放状态 ,一共被释放了 台,其中 台是集群 swarm a 的节点服务器, 台是集群 s ...
2019-10-15 15:56 14 2064 推荐指数:
非常抱歉,今天 10:30-10:45 左右由于 docker swarm 集群节点出现问题,造成除博客之外的站点出现访问异常,由此给您带来很大的麻烦,请您谅解。 故障开始时出现有时访问正常有时访问出现 502 或 500 ,当时我们就判断是某个节点出现问题,但无法直接定位出哪个节点,只能依次 ...
非常抱歉,今天下午 16:55~17:05 左右,由于 docker swarm 集群的突发不稳定问题造成新版博客后台(目前处于灰度发布阶段)无法正常使用,由此给您带来麻烦,请您谅解。 出故障期时,新版博客后台的2个容器都无法正常启动。 发现问题后,我们进行了删除 stack ...
今天傍晚 17:38-18:18 左右,由于 docker swarm 集群出现 "The swarm does not have a leader" 问题,造成博问、闪存、园子、小组、openapi 无法正常访问,由此给您带来麻烦,请您谅解。 目前我们已经迁移至 asp.net core ...
非常抱歉,今天 10:05-10:20 左右,我们用阿里云服务器搭建的 docker swarm 集群又出现故障,又是因为突然的节点 CPU 波动。 受这次故障影响的站点有 闪存,博问,班级,园子,短信息,招聘,小组,网摘,openapi ,由此给您带来很大的麻烦,请您谅解。 故障前先是有一个 ...
今天凌晨我们用阿里云服务器自建的 kubernetes 集群出现突发异常情况,博客站点(blog-web)与博客 web api(blog-api)的 pod 无法正常启动(CrashLoopBackOff)。 kubectl get pods -l app=blog-web ...
在上次遭遇 docker swarm 集群故障后,我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce 。 前天晚上22:00之后集群中的2个节点突然出现CPU波动,在CPU波动之后,在凌晨夜深人静、访问量极低的时候,整个集群出现了故障,访问 ...
最近,我们对新版博客后台(Angular 8.2.7 + .NET Core 3.0)进行了灰度发布,如果您访问博客后台时跳转到 https://i-beta.cnblogs.com/ ,说明使用的就是新版博客后台。 今天我们在一次基于 gitlab-ci 的自动化发布过程中,由于操作问题 ...
3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode)。 3月22日,我们进行移除与重启节点的操作时引发了故障,详见 云计算之路-阿里云上-容器服务:移除节点 ...