原文:[erlang]一次erlcron崩潰引起的事故分析

事故背景 由於誤操作在erlcron設置了一個超過 個月后的定時任務。然后第二天之后發現每天的daily reset沒有被執行,一些定時任務也沒有被執行。瞬間感覺整個人都不好了,怎么無端端就不執行了呢。 通過排查日志,發現了以下報錯: 我擦,ecrn control都崩了,怎么回事。 找到具體出錯的代碼: 發現調用ecrn reg:get AlarmRef 被返回了 ok, List ,而且這個 ...

2016-03-24 13:46 4 1626 推薦指數:

查看詳情

ThreadLocal引起一次線上事故

> 線上用戶存儲數據后查看提示無權限 前言 不知道什么時候年輕的我曾一度認為Java沒啥難度,沒有我實現不了的需求,沒有我解不了的bug 直到我遇到至今難忘的一個bug 。 ...

Fri May 14 16:48:00 CST 2021 3 766
一次go中map並發引起事故

錯誤使用map引發的血案 前言 場景復原 原因 參考 錯誤使用map引發的血案 前言 最近業務中,同事使用map來接收返回的結果,使用 ...

Fri Apr 23 22:58:00 CST 2021 4 583
一次dirty_ratio引起的線上事故

故障時間軸 發生時間:2020-09-14 06:40 發現時間:2020-09-14 06:41 響應時間:2020-09-14 07:42 故障表現 磁盤> ...

Mon Sep 14 21:12:00 CST 2020 0 431
由java程序引起一次系統崩潰

問題來源 2020年5月3日星期天。晚上7點39分,正是結賬的高峰期,然而就是在這個時候系統崩潰了。牽扯到錢的事沒一件事小事,可以定性此為重大事故。 造成的后果: 有人必須要背鍋了,先恢復再找問題源頭,再找誰的問題(這種鍋絕大多數是開發的問題)。 問題處理 常見思路:回滾、重啟大法 ...

Wed May 27 23:56:00 CST 2020 0 649
一次蘇寧小店事故分析和總結

轉java 3年了,記一個最近的坑; 臨近818,蘇寧小店線上 app 搞了個秒殺活動,后台服務出現了異常。 活動是周五 10 點,收到了系統的告警短信,同事開始有人在公司豆芽(蘇寧內部通信工具 ...

Mon Aug 27 23:25:00 CST 2018 2 2071
一次Mysql 死鎖事故

故障描述: 簡單描述一下需求:我們寫的一個計步器的客戶端軟件,用戶通過手機客戶端將用戶的運動計步信息傳到服務器。 服務器側記錄每個用戶每次上傳明細,同時每個用戶有一個匯總值,參與全省排名。 1. ...

Wed Jan 15 05:58:00 CST 2014 2 8567
一次程序崩潰引起的對new表達式的再次學習

1. 起因 某天,一個同事跟我反饋說在windows上調試公司產品的一個交易核心時出現了使用未初始化的指針導致后台服務崩潰的情況。示例代碼如下所示: 使用未初始化的指針是c++的大忌,但是該代碼在產品發布2年左右的時間一直沒有出現過問題。唯一的區別是發布運行環境是linux ...

Mon Nov 09 21:41:00 CST 2015 16 6129
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM