云计算之路系列博文分享的是我们将网站从IDC机房迁移至云计算平台的实际经历,目前已迁入阿里云,这次分享的是我们对之前的博文“解决images.cnblogs.com响应速度慢的诡异问题”中遇到的云服务器并发连接问题的猜想。不妥之处,欢迎批评指正。 这里再简单描述一下这个问题:我们的图片站点(静态 ...
首先向大家致歉,这次云服务器故障发现于 : 左右, : 左右恢复正常,给大家带来了麻烦,请大家谅解 故障的原因是云服务器所在的集群负载过高,磁盘写入性能急剧下降,造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。 下面是故障发生的主要经过: 今天上午 : 左右一位园友通过邮件反馈在访问园子时遇到 Bad Gateway错误,见下图: 这是由阿里云负载均衡SLB返回的错 ...
2013-03-14 23:53 43 7565 推荐指数:
云计算之路系列博文分享的是我们将网站从IDC机房迁移至云计算平台的实际经历,目前已迁入阿里云,这次分享的是我们对之前的博文“解决images.cnblogs.com响应速度慢的诡异问题”中遇到的云服务器并发连接问题的猜想。不妥之处,欢迎批评指正。 这里再简单描述一下这个问题:我们的图片站点(静态 ...
非常非常抱歉,由于我们的疏忽 —— docker swarm 集群中的 2 台服务器没有及时续费,造成在夜里0点被自动关机,从而引发整个 docker swarm 集群故障,造成今天凌晨 0:30 ~ 7:50 左右跑在集群上的站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解。受这次故障影响 ...
无地自容的道歉之后,向大家汇报一下故障的整个经过。在此再次向大家表示歉意,望大家能谅解! 14:15,有园友在闪存上说博客后台不能发布博文(见下图)。 14:17左右,我们看到了这条闪存。立即进入博客后台测试,发现提交时会出现如下的错误: "Timeout expired. ...
这里的“她”指的是硬盘,“她的人”指的是硬盘空间,“她的心”指的是硬盘的IO能力。 自从使用阿里云以来,我们遇到了三次故障(一、二、三),这三次故障都与磁盘IO高有关。第一次故障发生在跑zzk.cnblogs.com索引服务的云服务器上,当时的Avg.Disk Read Queue Length ...
今天下午14:30左右开始,不知道怎么回事,博客站点负载均衡中的web服务器轮番CPU 100%。平时访问高峰5台服务器就能稳稳支撑,而今天发现CPU出现100%问题后就开始加服务器,结果到目前加到了9台,也无济于事,只是从5台服务器轮番CPU 100%变成9台服务器轮询100%。 非常抱歉 ...
今天下午访问高峰的时候,主站的Web服务器出现奇怪的问题,开始是2台8核8G的云服务器(ECS),后来又加了1台8核8G的云服务器,问题依旧。 而且3台服务器特地使用了不同的配置:1台是禁用了虚拟内存的临时磁盘云服务器,1台是启用了虚拟内存的临时磁盘云服务器,1台是禁用了虚拟内存的云盘云服务器 ...
3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode)。 3月22日,我们进行移除与重启节点的操作时引发了故障,详见 云计算之路-阿里云上-容器服务:移除节点 ...
最近我们在服务器部署上使用了一些阿里云竞价服务器,比如在负载均衡中使用包年包月服务器与竞价服务器相结合,服务器部署调整时先用竞价服务器临时顶替一下。使用竞价服务器最大的风险是随时可能会被释放,今天之前我们只遇到过1次竞价服务器被释放的情况,那次被释放了2台,也是在周五,看来周五是一个竞价的高峰 ...