原文:用long类型让我出了次生产事故,写代码还是要小心点

昨天发现线上试跑期的一个程序挂了,平时都跑的好好的,查了下日志是因为昨天运营跑了一家美妆top级淘品牌店,会员量近千万,一下子就把 G的内存给爆了,当时并行跑了二个任务,没辙先速写一段代码限流,后面再做进一步优化。 一: 背景 . 背景介绍 因为是自己写的代码,所以我知道问题出现在哪里,如果大家看过我之前写的文章应该知道我用全内存跑了很多模型对用户打标签,一个模型就是一组定向的筛选条件,而为了加速 ...

2020-04-27 07:41 17 3236 推荐指数:

查看详情

次生产事故的优化经历

在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者APP,在打开的时候标的就已经被抢光了,刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候也不就这样吗?随着活动 ...

Mon Feb 06 16:50:00 CST 2017 88 20906
次生产事故后感

今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
记一次生产事故--磁盘被占满

写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...

Tue Feb 11 03:58:00 CST 2020 0 782
记一次生产kafka消息消费的事故

事故背景:   我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表(报表有误 ...

Wed Jun 12 18:07:00 CST 2019 0 571
深入认识二进制序列化--记一次生产事故的思考

一 概要 二进制序列化是公司内部自研微服务框架的主要的数据传输处理方式,但是普通的开发人员对于二进制的学习和了解并不深入,容易导致使用过程中出现了问题却没有分析解决的思路。本文从一次生产环境的事故引入这个话题,通过对于事故的分析过程,探讨了平时没有关注到的一些技术要点。二进制序列化结果并不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
记一次生产事故:30万单就这样没了!

背景 你好,我是彤哥。 昨天晚上下班回家,在地铁上,老大突然打来电话,B系统生产环境响应缓慢,影响了A系统的使用,几万小哥收不了单,大概有30万单卡住了,你去帮忙定位一下。 我8半左右到家,立马上线入会。 重启 我入会的时候,已经有同事在帮忙定位了,俗话说的好,重启能解决80%的问题 ...

Thu Sep 24 19:59:00 CST 2020 25 4139
惊魂36小时,一次生产事故,动态磁盘删除卷分区丢失,数据恢复案例实战

全是干货和实战,不上首页天理不容 一、事故来源 9月3日,在阿里云服务器上进行了50g的磁盘扩容,然后对磁盘2新扩容的50G进行了操作扩展卷,发现E盘变成了141G,不对啊,我想给F盘扩容的,然后就做了一个让我后悔的操作,对着那个小方块点了一下删除卷,弹出的确定框本能的就点击了确定 ...

Sat Sep 05 04:40:00 CST 2020 15 2794
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM