原文:從一次線上故障思考Java問題定位思路

問題出現:現網CPU飆高,Full GC告警 CGI 服務發布到現網后,現網機器出現了Full GC告警,同時CPU飆高 。在優先恢復現網服務正常后,開始着手定位Full GC的問題。在現場只能夠抓到四個GC線程占用了很高的CPU,無法抓到引發Full GC的線程。查看了服務故障期間的錯誤日志,發現更多的是由於Full GC引起的問題服務異常日志,無法確定Full GC的根源。為了查找問題的根源, ...

2018-09-14 17:26 2 1493 推薦指數:

查看詳情

一次線上問題排查所引發的思考

前言 之前或多或少分享過一些內存模型、對象創建之類的內容,其實大部分人看完都是懵懵懂懂,也不知道這些的實際意義。 直到有一天你會碰到線上奇奇怪怪的問題,如: 線程執行一個任務遲遲沒有返回,應用假死。 接口響應緩慢,甚至請求超時。 CPU 高負載運行。 這類問題並不 ...

Mon Jul 09 16:20:00 CST 2018 6 3053
一次線上問題引發的對dubbo優雅下線的思考

一.背景 我們經常聊到dubbo的啟動,是如何暴露接口的,如何注冊到注冊中心的,但是就一個完整的生命周期而言,有上線就必然有下線,而下線這一部分往往被人忽略,這次就一次線上發布問題為入口,來分析dubbo下線的過程和其中遇到的問題,從另一個方面加深dubbo整個生命周期的理解 ...

Tue Jun 01 01:41:00 CST 2021 0 1115
一次線上故障:數據庫連接池泄露后的思考

作者:陳朗,普蘭金融科技能效工程部開發工程師 一:初步排查 早上作為能效平台系統的使用高峰期,系統負載通常比其它時間段更大一些,某個時間段會有大量用戶登錄。當天系統開始有用戶報障,發布系統線上無法構建發布,然后后續有用戶不能登錄系統,系統發生假死,當然系統不是真的宕機,而是所有和數據庫有關 ...

Fri Jan 17 18:48:00 CST 2020 8 1652
一次線上故障:數據庫連接池泄露后的思考

一:初步排查 早上作為能效平台系統的使用高峰期,系統負載通常比其它時間段更大一些,某個時間段會有大量用戶登錄。當天系統開始有用戶報障,發布系統線上無法構建發布,然后后續有用戶不能登錄系統,系統發生假死,當然系統不是真的宕機,而是所有和數據庫有關的連接都被阻塞,隨后查看日志發現有大量報錯 ...

Wed Dec 25 17:18:00 CST 2019 0 2858
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
一次線上OOM故障排查經過

轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...

Thu Mar 06 21:05:00 CST 2014 0 2844
一次線上故障來理解下 TCP 三握、四揮 & Java 堆棧分析到源碼的探秘

本文導讀: 生產故障場景介紹 TCP 建連三握手過程 TCP 斷連四揮手過程 結合 Java 堆棧剖析源碼 再從堆棧中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹 業務簡介: 該服務主要是提供對外的代理接口,大部分接口都會調用第三方接口 ...

Sat Oct 19 23:44:00 CST 2019 2 685
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM