前些日子小组内安排值班,轮流看顾我们的服务,主要做一些报警邮件处理、Bug排查、运营issue处理的事。工作日还好,无论干什么都要上班的,若是轮到周末,那这一天算是毁了。 不知道是公司网络广了就这样还是网络运维组不给力,网络总有问题,不是这边交换机脱网了,就是那边路由器坏了,还偶发地各种超时 ...
发生一档子事情,公司技术团队之中有两个部门,一个开发一个运维,开发负责公司项目软件项目实现,运维负责项目运行生产环境服务器与数据的管理与维护。 前两天生产环境发生一起故障,项目依赖的redis服务器由于内存不足而出现写入故障,有一批用户丢失了一小时的数据, 公司发出批评通告, 运维全责,运维部门涉事相关员工与领导统统被罚。 为什么运维被罚,因为服务器内存不足会报警,向负责服务器的运维人员发出警告短 ...
2019-01-18 10:58 32 4149 推荐指数:
前些日子小组内安排值班,轮流看顾我们的服务,主要做一些报警邮件处理、Bug排查、运营issue处理的事。工作日还好,无论干什么都要上班的,若是轮到周末,那这一天算是毁了。 不知道是公司网络广了就这样还是网络运维组不给力,网络总有问题,不是这边交换机脱网了,就是那边路由器坏了,还偶发地各种超时 ...
最近遇到一个 Nginx 转发的坑,一个请求转发到 Tomcat 时发现有几个 http header 始终获取不到,导致线上出现 bug,运维说不是他的问题,这个锅我背了。 新增的几个 header 是这样的: accept_sign accept_token ...
技术的锅太多,到底该不该你背? 一大早就被微信群炸醒,开发短信服务的猿妹子,在公司微信群里说: 短信的生产环境服务器, CPU 占用率过高,疯狂报警,应该是你们昨天上线看门狗导致的(看门狗:守护短信服务的监控应用,后续有机会再进行分享)。 没错,昨天确实给短信服务装上了看门狗。但是看门狗服务 ...
按照已确认的需求,代码都快要上线了,产品提出需求变更,匆匆改完代码上线后导致重大 bug,锅(责任)应该是研发还是产品来背呢? 工作中背锅是常态。柱哥想说:背锅不可怕,背了无数口锅还没有一点长进才是最可怕的。 下面我们聊聊如何更有效的背锅: 分锅原则 首先,我们需要明确责任原则:谁执行 ...
CentOS 6.6 x86_64官方正式版系统(64位)下载地址 系统之家:http://www.xitongzhijia.net/linux/201412/33603.html 百度网盘:ht ...
前言 前段时间,我们线上系统出现了一个事故:用户创建了商品,在商城的商品列表页看不到,也搜索不到。、 这个问题持续了大概半个小时,最后发现竟然是我的锅。 这个事情怎么说呢,完全是我自己把自己坑了。到底怎么回事呢? 1. 从需求说起 1.1 背景 由于我们这个迭代是个大版本,上线的日子 ...
前言 只有光头才能变强。 文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y 自从做了推送以后,每隔一段时间就发现有各大的公司推送事故出现。 你问我做开发的慌不慌,我当然慌得一批 ...
今天分享一个RedisTemplate的问题,感兴趣的可以继续看下去了,不感兴趣的继续撩妹去吧! 如下图:一位朋友给了我一个报错的图片,为啥为啥取不到值? 我也有点懵,第一反应就是RedisT ...