原文:由一次线上故障来理解下 TCP 三握、四挥 & Java 堆栈分析到源码的探秘

本文导读: 生产故障场景介绍 TCP 建连三次握手过程 TCP 断连四次挥手过程 结合 Java 堆栈剖析源码 再从堆栈中找到 罪魁祸首 问题优化方案总结 生产故障场景介绍 业务简介: 该服务主要是提供对外的代理接口,大部分接口都会调用第三方接口,获取数据后做聚合处理后,提供给客户端使用。 有一天晚上,系统正处于高峰期间,项目组小伙伴正在津津有味的吃着 加班餐 ,刚把 塞进嘴里,邮件和短信同时发起 ...

2019-10-19 15:44 2 685 推荐指数:

查看详情

深入理解TCP

面试中被问到不少TCP的三,今天特意来做一个总结(一些资料是很久前找的,忘了参考的链接了) 一、三握手 首先来看一张图 最初,客户机A与服务器B的TCP进程都处于 CLOSED 状态。 然后由服务器B先创建TCB(传输控制块),进入到 LISTEN 状态,准备随时响应客户请求 ...

Tue Sep 03 04:26:00 CST 2019 1 585
通过jstack与jmap分析一次线上故障

一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
通过jstack与jmap分析一次线上故障

一、发现问题 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: 1.系统本身代码问题 2.内部下游系统的问题导致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
一次线上故障思考Java问题定位思路

问题出现:现网CPU飙高,Full GC告警 CGI 服务发布到现网后,现网机器出现了Full GC告警,同时CPU飙高99%。在优先恢复现网服务正常后,开始着手定位Full GC的问题。在现场只能够抓到四个GC线程占用了很高的CPU,无法抓到引发Full GC的线程。查看了服务故障期间的错误 ...

Sat Sep 15 01:26:00 CST 2018 2 1493
一次线上OOM故障排查经过

转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现 ...

Thu Mar 06 21:05:00 CST 2014 0 2844
【JVM】记录一次线上SWAP偏高告警的故障分析过程

近期遇到一个堆外内存导致swap飙高的问题,这类问题比较罕见,因此将整个排查过程记录下来了 现象描述 最近1周线上服务器时不时出现swap报警(swap超过内存10%时触发报警,内存是4G,因此swap超过400M会触发报警),每次都是童鞋们通过重启tomcat解决的;但导致的根本原因 ...

Wed May 15 22:20:00 CST 2019 0 725
TCP挥手里seq和ack号的【正确】理解

1 理论知识 先上一张图,TCP/IP详解第18章的这张图描述了一个正常的三握手和四挥手的状态迁移,以及seq、ack序号的变化。 基本状态看图就能了解,本文主要围绕序号的变化进行讲解。 1)seq序号 seq的初始值在不同系统实现不一样,一般为随时间增长的值。当seq超过4字节 ...

Thu May 21 22:55:00 CST 2020 0 3364
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM