在云上,底层的东西你无法触及,遇到奇怪问题时只能靠猜想,所以使用云计算会锻炼你的想像力。 (上图中蓝色是ASP.NET的Requests Queued,另外一个是HTTP.SYS的Arrival Rate) 昨天我们发现了一个重要的线索——“黑色30秒”到来时,最初的表现是请求出现排队 ...
如果说 年云计算之路的主题是 踩坑 ,那么 年我们希望云计算之路的主题变成 填坑 当然填坑是阿里云来完成的,我们只是见证曾经的坑坑洼洼变成平坦大道。 号 周四 晚上我们发现了SLB会话保持的坑, 号晚上阿里云成功定位并进行修复,这两天正式发布后会填平这个坑。这次从踩坑到填坑的过程是最痛快的一次。 接下来我们的目标锁定在 黑色n秒 刚发现一个英文说法:stuck for x seconds 这个坑 ...
2014-05-18 20:45 9 4685 推荐指数:
在云上,底层的东西你无法触及,遇到奇怪问题时只能靠猜想,所以使用云计算会锻炼你的想像力。 (上图中蓝色是ASP.NET的Requests Queued,另外一个是HTTP.SYS的Arrival Rate) 昨天我们发现了一个重要的线索——“黑色30秒”到来时,最初的表现是请求出现排队 ...
昨天对“黑色n秒”问题的最终猜想以失败而告终,从而让我们结束了被动猜想阶段,进入了主动进攻阶段——出招。 今天出第一招——用C#写个小程序,让其在每个CPU核上运行一个线程,不让任何一个CPU核进入空闲(idle)状态,以进一步排除CPU idle引起的“黑色n秒”。 在这一招中,借助 ...
为了更好地分享我们解决“黑色1秒”问题的过程,在这篇博文中我们将专门描述一下“黑色1秒”问题的表现。 “黑色1秒”是我们使用阿里云以来继“黑色10秒”之后遭遇的最奇特、最诡异、最难以捉摸、最富有戏剧性的问题。 它有2个最显著的特征: 第一个是最直观的表现,在Windows性能监视 ...
虽然昨天的第一招失败了,但是从失败中我们学到了与多核CPU相关的Processor Affinity(处理器关联)的知识。 既然我们可以让.NET程序的不同线程运行于指定的CPU核,那是不是也可以让IIS应用程序池的进程w3wp运行于指定的CPU核? 虽然看起来“黑色n秒”似乎与w3wp ...
的) 我们遭遇的“黑色10秒钟”问题详见:云计算之路-阿里云上:超级奇怪的“黑色10秒钟”。 本来 ...
“黑色1秒”问题经过一个多月的艰苦奋战,今天终于取得了重要进展!我们终于有了足够的数据证明不是微软IIS的问题,就是阿里云Xen虚拟机的问题。 这篇博文分享的是我们如何进行证明的,而且这次证明连Window性能监视器都不需要。 下面我们来分析一下今天10:37:35出现的“黑色1秒”(下面所用 ...
。而且阿里云的云服务器,所有的网络负载都集中在一块内网网卡上,SLB(负载均衡)用它,OCS(缓存服务)用它, ...
在昨天针对“黑色30秒”问题的分析中,我们猜测Requests Queued上升是由于正在处理的请求出不去(到达不了客户端)。今天我们结合IIS日志验证这个猜测。 IIS日志中有一个重要的指标——time-taken,time-taken不仅包含了请求在服务端执行的时间,还包含了响应的内容 ...