原文:B站崩了!线上故障如何快速排查?且不被微博发现……

dbaplus社群 dbaplus社群 微信号 dbaplus 功能介绍 围绕Database BigData AIOps的企业级专业社群。资深大咖 技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,每季度Gdevops amp DAMS行业大会. 天前 收录于话题 以下文章来源于阿里技术 ,作者小峯 阿里技术 阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。 导读:前天晚上 ...

2021-07-19 16:11 0 161 推荐指数:

查看详情

【JVM】线上应用故障排查

高CPU占用 一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。 根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。 通过ps aux | grep PID命令,可以进一步确定是tomcat进程出现了问题 ...

Thu Nov 16 00:58:00 CST 2017 1 2724
如何快速处理线上故障

概述 线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉‘坑’里了,这个‘坑’就是线上故障线上故障的处理过程可以形象地表达为:‘踩坑’、‘跳坑’、‘填坑’、‘避坑’。 线上故障的处理不仅是一项技术活,更是对技术人员/技术团队反应能力、决策能力、判定能力、组织能力的考验 ...

Tue May 02 01:10:00 CST 2017 16 8033
Java程序线上故障排查

目录 一、Linux 内存和cpu 网络 磁盘 /proc文件系统 二、JVM Java堆和垃圾收集器 ...

Sat Nov 16 04:27:00 CST 2019 1 886
B 崩了,总结下「高可用」和「异地多活」

你好,我是悟空。 一、背景 不用想象一种异常场景了,这就真实发生了:B 晚上 11 点突然挂了,网站主页直接报 404。 手机 APP 端数据加载不出来。 23:30 分,B 做了降级页面,将 404 页面跳转到了比较友好的异常页面。 但是刷新下页面,又会跳转到 404 ...

Wed Jul 14 19:45:00 CST 2021 19 6530
B 崩了,受害程序员聊聊

非吃瓜,B 事件始末分析 + 防治技术分享 大家好,我是鱼皮,昨天小破崩了的事情相信很多朋友都听说了。 这要是搁以前,不爱吃瓜的我根本不会去关注这种事,崩了崩了呗,反正天塌下来有程序员大佬们扛着,很快就会好的。 但这次不太一样,因为我自己也成为了本事件的 “受害者 ...

Thu Jul 15 03:28:00 CST 2021 0 2641
JAVA 线上故障排查全套路

线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack、jmap 等工具也是不囿于一个方面的问题的,基本上出问题就是 df、free、top 三连,然后依次 jstack、jmap 伺候 ...

Sun Apr 12 21:40:00 CST 2020 0 698
JVM 线上故障排查基本操作

# 前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的。各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题。楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢? 首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后 ...

Sun May 20 08:01:00 CST 2018 0 1592
线上应用故障排查之一:高CPU占用

一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。 (友情提示:本文章欢迎转载,但请注明出处:hankchen,http://www.blogjava.net/hankchen) 以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题 ...

Wed Jun 05 18:03:00 CST 2019 0 666
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM