墨菲定律 任何事情都没有表面看起来那么简单 所有事情的发展都会比你预计的时间长 会出错的事情总会出错 如果担心某个事情发生,那么它更有可能发生 墨菲定律暗示我们,如果担心某种 ...
系统背景介绍 用户系统负责用户生命周期管理,包括注册 登陆 用户信息获取等,其作为基础服务只提供内网服务,简称为service application组件包装service的服务对app渠道提供服务 service前面使用F 作为负载均衡器。 架构简图如下: 线上故障事件描述 上午 点 分,监控系统发出application组件可访问性故障告警,一半的实例均有告警 无业务告警 无生产事件上报。运维 ...
2017-05-01 17:08 2 1726 推荐指数:
墨菲定律 任何事情都没有表面看起来那么简单 所有事情的发展都会比你预计的时间长 会出错的事情总会出错 如果担心某个事情发生,那么它更有可能发生 墨菲定律暗示我们,如果担心某种 ...
周末早上,一个哥们突然@我,问是否有线上故障处理和定级的规范或者模板,虽然手头有既有文档,但内容显的太具象了,跟我们的业务有很强的关联性,并不是那么好直接复制到他的团队中。因此,个人对过去的线上故障处理进行了回顾和思考,并进行了简要的归纳,望帮助到需要的同学。文本将按事中处理、事后总结和事前预防 ...
水平扩容这种方式挺过压力高峰,导致线上连续几晚都出现了不同程度的问题,肯定对于我们的业务增长是有影响的 ...
容器DNS异常处理 问题详情 最近公司开发使用的一个 maven 仓库(nexus) 说同步阿里云Maven 源失败,这个仓库是使用容器部署的。 排查问题 首先就是登陆到容器, ping www.baidu.com 发现网络不可达,确定是容器网络不能访问外网。 第二步查看容器 ...
前言 在发生故障切换后,经常遇到的问题就是同步报错,下面是最近收集的报错信息。 记录删除失败 在master上删除一条记录,而slave上找不到 Last_SQL_Error: Could not execute Delete_rows event on table hcy.t1 ...
高可用测试目的为了验证集群没有单点故障,一个服务进程down 不影响业务。进程恢复后,集群状态正常。(稳定性、可靠性) 可用性相关设计rgw、osd、Mon(Lead、非Lead) 节点宕机rgw、osd、Mon 服务进程异常rgw、osd、Mon 管理、业务、存储网异常 ...
SLA:服务等级协议(简称:SLA,全称:service level agreement)。是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。 SLA的定义来源百度,这到底是什么意思呢? 我们平常经常看到互联网公司喊 ...
谈服务可用性监控 一个服务的监控从整体考虑,要达到哪些才能算是完善的?我想,如果没有一个全局性的监控思考,一个服务的监控即使加的再多也是会有监控盲区的。 监控的层次 从基础机器到上层业务,分为三个不同层次:系统,应用,业务。不同的层次都应该有其不同的监控目的。 系统监控 这个层次监控 ...