原文:一次線上事故的處理流程和總結

事故問題: 某個舊版本業務功能中運行了一個失敗重試的job,因一位離職的同事編碼時未考慮周全出現死循環,導致線上從 日下午 點一直到 日晚 點持續 天一直在刷日志。異常日志內容如下: 事故過程分析: 根據異常日志內容,初步考慮為redis中緩存的token失效了,后檢查token並與請求方token對比,發現token正確,故排除token過期原因 通過grep命令查找更多日志內容后,依然無法顯 ...

2018-07-31 10:00 0 1408 推薦指數:

查看詳情

ThreadLocal引起的一次線上事故

> 線上用戶存儲數據后查看提示無權限 前言 不知道什么時候年輕的我曾一度認為Java沒啥難度,沒有我實現不了的需求,沒有我解不了的bug 直到我遇到至今難忘的一個bug 。 線上用戶存儲數據后查看提示無權限 初次定位 明明自己添加的數據,為什么提示 ...

Fri May 14 16:48:00 CST 2021 3 766
一次線上事故的JVM內存學習

今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...

Fri May 25 04:24:00 CST 2018 0 1054
一次dirty_ratio引起的線上事故

故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...

Mon Sep 14 21:12:00 CST 2020 0 431
線程池運用不當的一次線上事故

在高並發、異步化等場景,線程池的運用可以說無處不在。線程池從本質上來講,即通過空間換取時間,因為線程的創建和銷毀都是要消耗資源和時間的,對於大量使用線程的場景,使用池化管理可以延遲線程的銷毀,大大提高單個線程的復用能力,進一步提升整體性能。 今天遇到了一個比較典型的線上問題,剛好和線程池有關 ...

Fri Jun 12 22:52:00 CST 2020 4 830
一次一個枚舉引發線上事故風暴

背景 2018年8月15號下午6點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是“顯示未設置結束日期” 問題定位 收到調用方的消息后,我立即展 ...

Fri Aug 17 00:39:00 CST 2018 6 806
【MySQL】記一次線上重大事故:二狗子竟然把線上數據庫刪了!!

寫在前面 估計二狗子這幾天是大姨夫來了,心情很郁悶,情緒也很低落,工作的時候也有點心不在焉。讓他發個版本,結果,一行命令下去把線上的數據庫刪了!你沒聽錯:是刪掉了線上的數據庫!運營那邊頓時炸了鍋:怎么回事?系統不能訪問了!什么情況啊?!很多客戶都在投訴了!! 盡管運營那邊慌慌張張 ...

Thu Aug 20 06:36:00 CST 2020 1 1247
一次蘇寧小店事故分析和總結

轉java 3年了,記一個最近的坑; 臨近818,蘇寧小店線上 app 搞了個秒殺活動,后台服務出現了異常。 活動是周五 10 點,收到了系統的告警短信,同事開始有人在公司豆芽(蘇寧內部通信工具)反饋有部分用戶下單失敗; 在監控儀表盤上也可以看到訪問量開始劇增 ...

Mon Aug 27 23:25:00 CST 2018 2 2071
一次git amend事故處理方案

一、問題回顧 問題是git commit --amend 引起的。 一條commit已經push到遠端develop了,但是后來又在這條commit上進行了amend操作,導致這條commit的哈希 ...

Tue Aug 30 17:04:00 CST 2016 0 10643
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM