在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者APP,在打开的时候标的就已经被抢光了,刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候也不就这样吗?随着活动 ...
昨天发现线上试跑期的一个程序挂了,平时都跑的好好的,查了下日志是因为昨天运营跑了一家美妆top级淘品牌店,会员量近千万,一下子就把 G的内存给爆了,当时并行跑了二个任务,没辙先速写一段代码限流,后面再做进一步优化。 一: 背景 . 背景介绍 因为是自己写的代码,所以我知道问题出现在哪里,如果大家看过我之前写的文章应该知道我用全内存跑了很多模型对用户打标签,一个模型就是一组定向的筛选条件,而为了加速 ...
2020-04-27 07:41 17 3236 推荐指数:
在一次正常的活动促销之后,客服开始陆续反馈有用户反应在抢标的时候打不开网页或者APP,在打开的时候标的就已经被抢光了,刚开始没有特别的上心,觉得抢标不就是这样吗,抢小米手机的时候也不就这样吗?随着活动 ...
今晚我们的其中一个产品的其中一个比较偏的环境出现了一次生产事故, 前端所有请求都发送失败。 我是中途被通知出了事故的,这事甚至惊动了一些领导。 期间有怀疑是我做的前端改动导致的问题。 最终排查,发现是ngix的配置错误导致的,通过修改配置修复了问题。 事情虽然结束过去 ...
写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可用空间,也就是磁盘满了。 进入服务器后台,执行 发现确实磁盘满了,而且满的很彻底。系统盘 ...
事故背景: 我们公司与合作方公司有个消息同步的需求,合作方是消息生产者,我们是消息消费者,他们通过kafka给我们推送消息,我们实时接收,然后进行后续业务处理。昨天上午,发现他们推送过来的广场门店信息我们都没有消费,导致我们系统和他们系统数据不一致,从而导致无法提单,无法出报表(报表有误 ...
一 概要 二进制序列化是公司内部自研微服务框架的主要的数据传输处理方式,但是普通的开发人员对于二进制的学习和了解并不深入,容易导致使用过程中出现了问题却没有分析解决的思路。本文从一次生产环境的事故引入这个话题,通过对于事故的分析过程,探讨了平时没有关注到的一些技术要点。二进制序列化结果并不 ...
背景 你好,我是彤哥。 昨天晚上下班回家,在地铁上,老大突然打来电话,B系统生产环境响应缓慢,影响了A系统的使用,几万小哥收不了单,大概有30万单卡住了,你去帮忙定位一下。 我8点半左右到家,立马上线入会。 重启 我入会的时候,已经有同事在帮忙定位了,俗话说的好,重启能解决80%的问题 ...
我喜欢阅读,看到让我拍案叫绝的文章,内心就会特别汹涌澎湃,但是我知道这种碰撞是肤浅的,因为学习金字塔原理告诉我们,收听只不过吸收5%,我非得写点什么不可,好让自己更好的领会和消化,也是对每一个让 ...
全是干货和实战,不上首页天理不容 一、事故来源 9月3日,在阿里云服务器上进行了50g的磁盘扩容,然后对磁盘2新扩容的50G进行了操作扩展卷,发现E盘变成了141G,不对啊,我想给F盘扩容的,然后就做了一个让我后悔的操作,对着那个小方块点了一下删除卷,弹出的确定框本能的就点击了确定 ...