大家好,我是雨乐! 前几天,突然收到报警,线上服务崩溃,然后自动重启。 由于正值双十一期间,业务以稳定为主,线上服务崩溃,这可不是一件小事,赶紧登陆线上服务器,分析原因,迅速解决。 借助这篇文章,记录下整个崩溃的分析和解决过程。 收到报警 上午上班后,正在划水,突然收到邮件报警 ...
马上就要离职了,想想工作中有些东西还是需要沉淀下来的,不仅仅要沉淀到心里,因为年纪大了 ,很容易忘记,不是有句话么,好记性不如烂笔头。 分析这个bug之前先说点别的。 解决bug的大致思路 我觉的解bug和医生看病是一样的,中医看病讲究望闻问切。软件出了毛病也按这个套路来,但是不需要闻。 望。观察表面现象,server端出了问题还是client端 现象是什么 log里记录了什么 问。询问客户最近 ...
2017-06-20 14:27 3 3254 推荐指数:
大家好,我是雨乐! 前几天,突然收到报警,线上服务崩溃,然后自动重启。 由于正值双十一期间,业务以稳定为主,线上服务崩溃,这可不是一件小事,赶紧登陆线上服务器,分析原因,迅速解决。 借助这篇文章,记录下整个崩溃的分析和解决过程。 收到报警 上午上班后,正在划水,突然收到邮件报警 ...
1.首先要先准备好环境,安装lldb 工具 要安装3.9版本的,因为每个版本对应dnc版本不一样,3.9的支持2.2 版本,然后确定分析的机器里dnc 版本和线上的生产环境是否一致,自己安装比较费劲,可以使用一些已经安装好的docker镜像来进行分析更简单一点 2.在生产环境生成dump文件 ...
作者:13 GitHub:https://github.com/ZHENFENG13 版权声明:本文为原创文章,未经允许不得转载。 文章简介 工作这几年,技术栈在不断更新,项目管理心得也增加了不少,写代码的速度也在提升,感觉很欣慰,毕竟是在一直进步,但是过程中也有许许多多的曲折,也踩 ...
标题采自:英雄联盟-瑞文:断剑重铸之日,骑士归来之时! 断剑 前两天早上在挤地铁的时候看到小组群里,主管发了好多消息,打开来一看,说是XX项目自从22号发版后,每天晚上就疯狂Full GC ...
可用。于是我们对服务器上的状况进行了排查。 二.排查问题的过程 在这次的问题排查主要是围绕JVM的内存使用情况,生 ...
Linux(2)---记录一次线上服务 CPU 100%的排查过程 当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% 。如何排查的呢 是通过日志输出错误信息: 得知websocket时时重新 连接的信息,然后找到原因 解决 ...
近期遇到一个堆外内存导致swap飙高的问题,这类问题比较罕见,因此将整个排查过程记录下来了 现象描述 最近1周线上服务器时不时出现swap报警(swap超过内存10%时触发报警,内存是4G,因此swap超过400M会触发报警),每次都是童鞋们通过重启tomcat解决的;但导致的根本原因 ...
背景 前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: 表数据量200W左右,不是很大,而且是根据主键更新。 问题排查 排查Mysql数据库 我看到sql后第一反应就是是不是数据库出问题了,每个小时都有业务,偏偏白天业务高峰时间段 ...