原文:由Redis的hGetAll函数所引发的一次服务宕机事件

昨晚通宵生产压测,终于算是将生产服务宕机的原因定位到了,心累。这篇博客,算作一个复盘和记录吧。。。 先来看看Redis的缓存淘汰算法思维导图: 说明:当实际占用的内存超过Redis配置的maxmemory时,Redis就会根据用户选择淘汰策略清除被选中的key。 业务场景:用户通过微信入口来访问一个页面 测试场景:通过多线程模拟定量的并发来访问页面服务 涉及架构:springsession Red ...

2018-12-21 22:08 1 538 推荐指数:

查看详情

记录一次Centos7宕机事件

事件背景 2020年9月25日18点18分,收到告警,大数据02节点宕机,发现此问题出现过3,分别在生成大数据服务器的2个节点上发生。这次决心要查处问题。 服务是CDH节点,就是大数据那一套东西。 系统版本:CentOS Linux release 7.3.1611 内核版本 ...

Mon Sep 28 02:31:00 CST 2020 0 2462
记录一次服务器突然宕机的排查

服务器突然宕机,领导找了服务器供应商,然后供应商发来一张马赛克画质的图片。说是我们做了什么操作,透过马赛克,隐约能看到一些 以及一些,供应商说是因为升级操作导致的,但是上面分明是22号升级的,23号宕的机。 全图(眼差点瞎了) 查看系统日志 所有日志目录 查看 ...

Mon Nov 25 23:33:00 CST 2019 0 347
一次Kafka服务宕机的真实经历!!

大家好,我是冰河~~ 估计节前前祭拜服务器不灵了,年后服务器总是或多或少的出现点问题。不知是人的问题,还是风水问题。昨天下班时,跟运维小伙伴交代了好几遍:如果使用Docker安装Kafka集群的话,也需要把Kafka集群的服务器硬盘分配的大一些,公司业务量很大,很多服务的通信、数据的流转、日志 ...

Sun Oct 10 02:40:00 CST 2021 3 1057
一次VLAN标签引发的网络事件的处置

一次VLAN标签引发的网络事件的处置 一、背景介绍 事件背景:   HZ某分公司新装一套业务系统,通过一条专线和BJ总公司连通。分配给HZ公司的ip地址为:a.b.c.X,掩码24位,网关a.b.c.1。BJ总公司网络管理员无法联系、相关配置未知。 故障现象:   HZ分公司端光猫 ...

Fri Mar 26 03:40:00 CST 2021 0 285
一次 “灵异事件” 及由此引发的思考

上个周日,即 5 月 12 日,风和日丽,正和朋友在天河公园悠闲的散步。突然接到运营的电话,语气匆匆的说道: “xxx, 不好啦,阴阳师官方论坛 好像被黑客攻击了,全部页面变成黑白了,看着挺吓人的,你 ...

Thu May 16 19:30:00 CST 2019 7 1929
一次线上Redis类转换异常排查引发的思考

之前同事反馈说线上遇到Redis反序列化异常问题,异常如下: 已知信息如下: 该异常不是必现的,偶尔才会出现; 出现该异常后重启应用或者过一会就好了; 序列化协议使用了hessian。 因为偶尔出现,首先看了报异常那块业务逻辑是不是有问题,看了一遍也发现 ...

Mon Jun 24 19:05:00 CST 2019 0 885
【故障公告】redis 服务宕机引发博客站点故障

非常抱歉,今天下午 17:10~17:40 左右,由于博客系统所使用的 redis 服务宕机,造成博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解。 我们会针对这次故障改进 redis 服务器的部署,提高 redis 服务器的高可用性。目前 redis 服务是用阿里云服务器单独部署 ...

Thu Jul 15 02:53:00 CST 2021 35 4679
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM