故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...
gt 線上用戶存儲數據后查看提示無權限 前言 不知道什么時候年輕的我曾一度認為Java沒啥難度,沒有我實現不了的需求,沒有我解不了的bug 直到我遇到至今難忘的一個bug 。 線上用戶存儲數據后查看提示無權限 初次定位 明明自己添加的數據,為什么提示自己沒有權限呢 我一開始自信的認為是我們的客戶操作有問題 或者是我們權限配置有問題 但是帶我自己親自驗證了一下之后發現這個問題時現時不現,屬於一個偶 ...
2021-05-14 08:48 3 766 推薦指數:
故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...
1、事故問題: 某個舊版本業務功能中運行了一個失敗重試的job,因一位離職的同事編碼時未考慮周全出現死循環,導致線上從24日下午2點一直到27日晚9點持續3天一直在刷日志。異常日志內容如下: 2、事故過程分析: ①、根據異常日志 ...
錯誤使用map引發的血案 前言 場景復原 原因 參考 錯誤使用map引發的血案 前言 最近業務中,同事使用map來接收返回的結果,使用 ...
事故背景 由於誤操作在erlcron設置了一個超過3個月后的定時任務。然后第二天之后發現每天的daily reset沒有被執行,一些定時任務也沒有被執行。瞬間感覺整個人都不好了,怎么無端端就不執行了呢。 通過排查日志,發現了以下報錯: 我擦,ecrn_control都崩了,怎么回事 ...
今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...
在高並發、異步化等場景,線程池的運用可以說無處不在。線程池從本質上來講,即通過空間換取時間,因為線程的創建和銷毀都是要消耗資源和時間的,對於大量使用線程的場景,使用池化管理可以延遲線程的銷毀,大大提高單個線程的復用能力,進一步提升整體性能。 今天遇到了一個比較典型的線上問題,剛好和線程池有關 ...
背景 2018年8月15號下午6點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是“顯示未設置結束日期” 問題定位 收到調用方的消息后,我立即展 ...
寫在前面 估計二狗子這幾天是大姨夫來了,心情很郁悶,情緒也很低落,工作的時候也有點心不在焉。讓他發個版本,結果,一行命令下去把線上的數據庫刪了!你沒聽錯:是刪掉了線上的數據庫!運營那邊頓時炸了鍋:怎么回事?系統不能訪問了!什么情況啊?!很多客戶都在投訴了!! 盡管運營那邊慌慌張張 ...