今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...
昨天下午大神把組內幾十號人召集在一起開Online bug分析大會,主要是針對近期線上事故從事故原因和解決方案兩個維度來分析 對金融軟件來說,每一次的線上事故都有可能給公司帶來重大的損失,少扣了用戶的錢,為公司帶來資金方面的虧損 多扣了用戶的錢,則為帶來不必要的合約或法律糾紛,故測試金融軟件不比其他行業的軟件,后者線上bug大多不會直接引起資金方面損失,最多就是用戶體驗不好,功能沒有實現,導致用戶 ...
2018-01-25 13:33 7 1243 推薦指數:
今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個問題:為什么會頻繁GC 有過JVM經驗的開發者都應該知道,GC是在內存不夠時,JVM自動進行 ...
故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...
背景 2018年8月15號下午6點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是“顯示未設置結束日期” 問題定位 收到調用方的消息后,我立即展 ...
寫在前面 估計二狗子這幾天是大姨夫來了,心情很郁悶,情緒也很低落,工作的時候也有點心不在焉。讓他發個版本,結果,一行命令下去把線上的數據庫刪了!你沒聽錯:是刪掉了線上的數據庫!運營那邊頓時炸了鍋:怎么回事?系統不能訪問了!什么情況啊?!很多客戶都在投訴了!! 盡管運營那邊慌慌張張 ...
前言 前段時間,我們線上系統出現了一個事故:用戶創建了商品,在商城的商品列表頁看不到,也搜索不到。、 這個問題持續了大概半個小時,最后發現竟然是我的鍋。 這個事情怎么說呢,完全是我自己把自己坑了。到底怎么回事呢? 1. 從需求說起 1.1 背景 由於我們這個迭代是個大版本,上線的日子 ...
轉java 3年了,記一個最近的坑; 臨近818,蘇寧小店線上 app 搞了個秒殺活動,后台服務出現了異常。 活動是周五 10 點,收到了系統的告警短信,同事開始有人在公司豆芽(蘇寧內部通信工具)反饋有部分用戶下單失敗; 在監控儀表盤上也可以看到訪問量開始劇增 ...
前文提要 承接前文《一次線上Mysql數據庫崩潰事故的記錄》,在文章中講到了一次線上數據庫崩潰的事件記錄,建議兩篇文章結合在一起看,不至於摸不着頭腦。 由於時間原因,其中只講了當時的一些經過以及我當時的一些心理活動,至於原因和后續處理步驟並沒有在文章中很清晰的寫出來,以致於很多朋友說看得 ...
1、事故問題: 某個舊版本業務功能中運行了一個失敗重試的job,因一位離職的同事編碼時未考慮周全出現死循環,導致線上從24日下午2點一直到27日晚9點持續3天一直在刷日志。異常日志內容如下: 2、事故過程分析: ①、根據異常日志 ...