原文:记一次生产kafka消息消费的事故

事故背景: 我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表 报表有误 等各种问题 排查过程: 因为coco身体不适,上午请假去医院了,所以这个问题就转给我们team的专门运维的同事 ...

2019-06-12 10:07 0 571 推荐指数:

查看详情

一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次生产事故后感

今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
深入认识二进制序列化--一次生产事故的思考

一 概要 二进制序列化是公司内部自研微服务框架的主要的数据传输处理方式,但是普通的开发人员对于二进制的学习和了解并不深入,容易导致使用过程中出现了问题却没有分析解决的思路。本文从一次生产环境的事故引入这个话题,通过对于事故的分析过程,探讨了平时没有关注到的一些技术要点。二进制序列化结果并不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
一次生产事故:30万单就这样没了!

背景 你好,我是彤哥。 昨天晚上下班回家,在地铁上,老大突然打来电话,B系统生产环境响应缓慢,影响了A系统的使用,几万小哥收不了单,大概有30万单卡住了,你去帮忙定位一下。 我8点半左右到家,立马上线入会。 重启 我入会的时候,已经有同事在帮忙定位了,俗话说的好,重启能解决80%的问题 ...

Thu Sep 24 19:59:00 CST 2020 25 4139
一次生产dubbo线程池耗尽的问题

问题:   dubbo线程池耗尽,活跃线程数超过线程池最大线程数(dubbo默认线程池最大线程数为200) 登录服务提供者所在服务器 通过命令行连接dubbo: 查看 ...

Fri Apr 03 19:04:00 CST 2020 0 3640
一次mq无法正常生产消息事故排查过程

早上上班后得知,服务费未同步到代理商系统。查看draft_server系统生产环境的log,显示在往RabbitMQ推数据时出现异常:no route to host。 打开vpn连接到生产环境,用本地test程序尝试往生产的mq推数据,发现正常。接下来,rpc调用生产 ...

Sat Aug 03 00:07:00 CST 2019 0 507
一次生产请求耗时的问题

最近发现lb上记录的request_time比upstream_response_time大的比较多,例如upstream_response_time记录是0.062,request_time记 ...

Sat Mar 30 16:34:00 CST 2019 3 1869
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM