首先向大家致歉,这次云服务器故障发现于17:30左右,18:30左右恢复正常,给大家带来了麻烦,请大家谅解! 故障的原因是云服务器所在的集群负载过高,磁盘写入性能急剧下降,造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。 下面是故障发生的主要经过: 今天上午 ...
这里的 她 指的是硬盘, 她的人 指的是硬盘空间, 她的心 指的是硬盘的IO能力。 自从使用阿里云以来,我们遇到了三次故障 一 二 三 ,这三次故障都与磁盘IO高有关。第一次故障发生在跑zzk.cnblogs.com索引服务的云服务器上,当时的Avg.Disk Read Queue Length高达 多 第二次故障发生在跑images.cnblogs.com静态文件的云服务器上,当时的Avg.Di ...
2013-03-15 13:09 40 7821 推荐指数:
首先向大家致歉,这次云服务器故障发现于17:30左右,18:30左右恢复正常,给大家带来了麻烦,请大家谅解! 故障的原因是云服务器所在的集群负载过高,磁盘写入性能急剧下降,造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。 下面是故障发生的主要经过: 今天上午 ...
云计算之路系列博文分享的是我们将网站从IDC机房迁移至云计算平台的实际经历,目前已迁入阿里云,这次分享的是我们对之前的博文“解决images.cnblogs.com响应速度慢的诡异问题”中遇到的云服务器并发连接问题的猜想。不妥之处,欢迎批评指正。 这里再简单描述一下这个问题:我们的图片站点(静态 ...
在云上,底层的东西你无法触及,遇到奇怪问题时只能靠猜想,所以使用云计算会锻炼你的想像力。 (上图中蓝色是ASP.NET的Requests Queued,另外一个是HTTP.SYS的Arrival Rate) 昨天我们发现了一个重要的线索——“黑色30秒”到来时,最初的表现是请求出现排队 ...
这篇博文记录一下6月1日在阿里云上遇到的奇怪的CPU 100%问题,希望多年以后能真相大白。 那天负载均衡(SLB)中只放了1台云服务器(平时都放2台),由于是节假日,虽然只放了一台,但这台服务器的负载也没有平时高。但在上午的时候突然出现了CPU 100%问题,然后切换到另外一台云服务器恢复正常 ...
7月10日11:14接到一位用户反馈,访问园子时加载不了 common.cnblogs.com/script/jquery.js 这个文件。 由于这个域名用了阿里云CDN,所以我们判断可能是某个CDN节点出了问题,准备让这位用户ping common.cnblogs.com将CDN节点的IP反馈 ...
一周的万里无云是我们的第一个目标,这周天气情况好转,但昨天/今天下午依然有乌云飘过。 昨天下午16:40~16:48左右,博客站点的两台Web服务器突然出现CPU坐过山车的波动情况。 今天下午14:26~14:32左右再次出现CPU坐过山车的波动情况,之后又出现了几次短时间的波动 ...
为了更好地分享我们解决“黑色1秒”问题的过程,在这篇博文中我们将专门描述一下“黑色1秒”问题的表现。 “黑色1秒”是我们使用阿里云以来继“黑色10秒”之后遭遇的最奇特、最诡异、最难以捉摸、最富有戏剧性的问题。 它有2个最显著的特征: 第一个是最直观的表现,在Windows性能监视 ...
“黑色1秒”问题经过一个多月的艰苦奋战,今天终于取得了重要进展!我们终于有了足够的数据证明不是微软IIS的问题,就是阿里云Xen虚拟机的问题。 这篇博文分享的是我们如何进行证明的,而且这次证明连Window性能监视器都不需要。 下面我们来分析一下今天10:37:35出现的“黑色1秒”(下面所用 ...