1、事件還原 昨天下午,收到一個504的告警,顯然這是一個超時告警。當時由於手頭有其他事情,沒在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我寫的,第一反應有點詫異。 詫異之后,繼續處理手頭的工作。 一小時過后,又收到同樣的告警,顯然不是偶爾,肯定是哪兒出問題了,於是開始排查。 報警 ...
一 引子 這要從線上的一個接口偶發異常耗時說起,事情往往不是你想象的樣子,尤其是在排查問題的時候,切忌有先入為主的的某些判斷。 二 問題: 接口監控圖:顯示每天總會有那么幾次耗時特別長的請求。 三 排查: 直觀的認識是 偶發 ,每天零星的幾個,不規律。 對於這種情況,第一感覺是因為服務的波動影響,因為沒有服務能夠達到 的低延遲可用響應。 首先檢查了相應時段的其它接口的響應情況,發現並沒有相似的情景 ...
2020-07-11 02:04 0 922 推薦指數:
1、事件還原 昨天下午,收到一個504的告警,顯然這是一個超時告警。當時由於手頭有其他事情,沒在意,就只是瞄了一眼,但是引起告警的方法很熟悉,是我寫的,第一反應有點詫異。 詫異之后,繼續處理手頭的工作。 一小時過后,又收到同樣的告警,顯然不是偶爾,肯定是哪兒出問題了,於是開始排查。 報警 ...
之前同事反饋說線上遇到Redis反序列化異常問題,異常如下: 已知信息如下: 該異常不是必現的,偶爾才會出現; 出現該異常后重啟應用或者過一會就好了; 序列化協議使用了hessian。 因為偶爾出現,首先看了報異常那塊業務邏輯是不是有問題,看了一遍也發現 ...
前言 之前或多或少分享過一些內存模型、對象創建之類的內容,其實大部分人看完都是懵懵懂懂,也不知道這些的實際意義。 直到有一天你會碰到線上奇奇怪怪的問題,如: 線程執行一個任務遲遲沒有返回,應用假死。 接口響應緩慢,甚至請求超時。 CPU 高負載運行。 這類問題並不 ...
> 線上用戶存儲數據后查看提示無權限 前言 不知道什么時候年輕的我曾一度認為Java沒啥難度,沒有我實現不了的需求,沒有我解不了的bug 直到我遇到至今難忘的一個bug 。 線上用戶存儲數據后查看提示無權限 初次定位 明明自己添加的數據,為什么提示 ...
https://blog.csdn.net/qq_16681169/article/details/53296137 一.出現問題 在前一段時間日常環境很不穩定,前端調用mtop接口會出網絡異常或服務不存在的異常。查詢了服務器上的HSF會有偶爾掛死的情況,服務器上的接口服務都不 ...
1、問題發現 Prometheus報警某服務的一個節點 Old GC過多,需要排查。 2、查看GC日志 使用tail -f gc.log命令查看異常節點的GC日志,從日志可以看出Young GC過於頻繁,竟然在1s內有9次Young GC: 使用tail ...
由於近期線上單量暴漲,第三方反饋部分工單業務存在查詢處理失敗現象,經排查是當前系統通過FeignClient調用下游系統出現部分超時失敗(異常代碼貼在下方)。 通過系統慢請求捕捉攔截,發現當前請求僅耗時1031毫秒,就觸發Read timed out超時錯誤,本項 ...
轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...