今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...
背景 年 月 號下午 點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是 顯示未設置結束日期 問題定位 收到調用方的消息后,我立即展開了問題的排查 通過服務管理平台查看服務是否出現超時及比對今天和昨天接口整體的響應時長,但是排查后發現服務正常。 通過調用方提供異常用戶id從日志中排查是否出現異常,排查發現日志中也打印了未設置結束日期的錯誤信息,但是還是 ...
2018-08-16 16:39 6 806 推薦指數:
今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...
故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...
記一次http超時引發的事故 前言 分析下具體的代碼實現 服務設置超時 客戶端設置超時 http.client context http.Transport 問題 總結 ...
寫在前面 估計二狗子這幾天是大姨夫來了,心情很郁悶,情緒也很低落,工作的時候也有點心不在焉。讓他發個版本,結果,一行命令下去把線上的數據庫刪了!你沒聽錯:是刪掉了線上的數據庫!運營那邊頓時炸了鍋:怎么回事?系統不能訪問了!什么情況啊?!很多客戶都在投訴了!! 盡管運營那邊慌慌張張 ...
1、事故問題: 某個舊版本業務功能中運行了一個失敗重試的job,因一位離職的同事編碼時未考慮周全出現死循環,導致線上從24日下午2點一直到27日晚9點持續3天一直在刷日志。異常日志內容如下: 2、事故過程分析: ①、根據異常日志 ...
> 線上用戶存儲數據后查看提示無權限 前言 不知道什么時候年輕的我曾一度認為Java沒啥難度,沒有我實現不了的需求,沒有我解不了的bug 直到我遇到至今難忘的一個bug 。 線上用戶存儲數據后查看提示無權限 初次定位 明明自己添加的數據,為什么提示 ...
記一次訂單號事故 去年年底的時候,我們線上出了一次事故,這個事故的表象是這樣的: 系統出現了兩個一模一樣的訂單號,訂單的內容卻不是不一樣的,而且系統在按照 訂單號查詢的時候一直拋錯,也沒法正常回調,而且事情發生的不止一次,所以 這次系統升級一定要解決掉。 經手的同事之前也改過幾次 ...
在引入Spring的Validated時,需要聲明如下bean: 出於偷懶,放在了如下的一個初始化中: 配置好后,@Validated生效了,但是aop,事務 ...