事件背景 2020年9月25日18点18分,收到告警,大数据02节点宕机,发现此问题出现过3次,分别在生成大数据服务器的2个节点上发生。这次决心要查处问题。 服务是CDH节点,就是大数据那一套东西。 系统版本:CentOS Linux release 7.3.1611 内核版本 ...
昨晚通宵生产压测,终于算是将生产服务宕机的原因定位到了,心累。这篇博客,算作一个复盘和记录吧。。。 先来看看Redis的缓存淘汰算法思维导图: 说明:当实际占用的内存超过Redis配置的maxmemory时,Redis就会根据用户选择淘汰策略清除被选中的key。 业务场景:用户通过微信入口来访问一个页面 测试场景:通过多线程模拟定量的并发来访问页面服务 涉及架构:springsession Red ...
2018-12-21 22:08 1 538 推荐指数:
事件背景 2020年9月25日18点18分,收到告警,大数据02节点宕机,发现此问题出现过3次,分别在生成大数据服务器的2个节点上发生。这次决心要查处问题。 服务是CDH节点,就是大数据那一套东西。 系统版本:CentOS Linux release 7.3.1611 内核版本 ...
目录 简介 日志分析 副本集 如何实现 Failover 心跳的实现 electionTimeout 定时器 业务影响评估 参考 ...
服务器突然宕机,领导找了服务器供应商,然后供应商发来一张马赛克画质的图片。说是我们做了什么操作,透过马赛克,隐约能看到一些 以及一些,供应商说是因为升级操作导致的,但是上面分明是22号升级的,23号宕的机。 全图(眼差点瞎了) 查看系统日志 所有日志目录 查看 ...
大家好,我是冰河~~ 估计节前前祭拜服务器不灵了,年后服务器总是或多或少的出现点问题。不知是人的问题,还是风水问题。昨天下班时,跟运维小伙伴交代了好几遍:如果使用Docker安装Kafka集群的话,也需要把Kafka集群的服务器硬盘分配的大一些,公司业务量很大,很多服务的通信、数据的流转、日志 ...
一次VLAN标签引发的网络事件的处置 一、背景介绍 事件背景: HZ某分公司新装一套业务系统,通过一条专线和BJ总公司连通。分配给HZ公司的ip地址为:a.b.c.X,掩码24位,网关a.b.c.1。BJ总公司网络管理员无法联系、相关配置未知。 故障现象: HZ分公司端光猫 ...
上个周日,即 5 月 12 日,风和日丽,正和朋友在天河公园悠闲的散步。突然接到运营的电话,语气匆匆的说道: “xxx, 不好啦,阴阳师官方论坛 好像被黑客攻击了,全部页面变成黑白了,看着挺吓人的,你 ...
之前同事反馈说线上遇到Redis反序列化异常问题,异常如下: 已知信息如下: 该异常不是必现的,偶尔才会出现; 出现该异常后重启应用或者过一会就好了; 序列化协议使用了hessian。 因为偶尔出现,首先看了报异常那块业务逻辑是不是有问题,看了一遍也发现 ...
非常抱歉,今天下午 17:10~17:40 左右,由于博客系统所使用的 redis 服务器宕机,造成博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解。 我们会针对这次故障改进 redis 服务器的部署,提高 redis 服务器的高可用性。目前 redis 服务是用阿里云服务器单独部署 ...