原文:記一次最近生產環境項目中發生的兩個事故及處理方法

前言 年前放假的幾個月內,公司項目發生了兩次事故,雖然與我無關,但事故發生后整個團隊都受到影響,主管需要給客戶寫事故報告,客戶甚至打電話給公司領導嚴肅批評,我想經歷過這種事的朋友不在少數,但很多剛入行的朋友可能不太清楚其中利害,這里我分享出來希望對大家有所幫助。 事故經過 三個月內一共發生兩次生產環境事故,一個是接口超時導致服務雪崩,一個是鎖表導致核心功能停滯一小時。 接口超時事故 現象 年 月 ...

2022-02-06 18:30 65 7153 推薦指數:

查看詳情

一次生產事故--磁盤被占滿

寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可用空間,也就是磁盤滿了。 進入服務器后台,執行 發現確實磁盤滿了,而且滿的很徹底。系統盤 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次生產kafka消息消費的事故

事故背景:   我們公司與合作方公司有個消息同步的需求,合作方是消息生產者,我們是消息消費者,他們通過kafka給我們推送消息,我們實時接收,然后進行后續業務處理。昨天上午,發現他們推送過來的廣場門店信息我們都沒有消費,導致我們系統和他們系統數據不一致,從而導致無法提單,無法出報表(報表有誤 ...

Wed Jun 12 18:07:00 CST 2019 0 571
一次git amend事故處理方案

一、問題回顧 問題是git commit --amend 引起的。 一條commit已經push到遠端develop了,但是后來又在這條commit上進行了amend操作,導致這條commit的哈希碼發生了變化。並且后續又在這條commit之后進行了N條commit操作。 < ...

Tue Aug 30 17:04:00 CST 2016 0 10643
一次生產事故后感

今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故, 前端所有請求都發送失敗。 我是中途被通知出了事故的,這事甚至驚動了一些領導。 期間有懷疑是我做的前端改動導致的問題。 最終排查,發現是ngix的配置錯誤導致的,通過修改配置修復了問題。 事情雖然結束過去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
一次流量暴增造成的“生產事故”優化經歷!

歡迎大家前往騰訊雲社區,獲取更多騰訊海量技術實踐干貨哦~ 前言 “在一次正常的活動促銷之后,客服開始陸續反饋有用戶反應在搶標的時候打不開網頁或者 APP,在打開的時候標的就已經被搶光了。 剛開始沒有特別的上心,覺得搶標不就是這樣嗎,搶小米手機的時候不也是 ...

Fri Nov 24 18:22:00 CST 2017 4 899
一次mq無法正常生產消息的事故排查過程

早上上班后得知,服務費未同步到代理商系統。查看draft_server系統生產環境的log,顯示在往RabbitMQ推數據時出現異常:no route to host。 打開vpn連接到生產環境,用本地test程序嘗試往生產的mq推數據,發現正常。接下來,rpc調用生產 ...

Sat Aug 03 00:07:00 CST 2019 0 507
深入認識二進制序列化--一次生產事故的思考

一 概要 二進制序列化是公司內部自研微服務框架的主要的數據傳輸處理方式,但是普通的開發人員對於二進制的學習和了解並不深入,容易導致使用過程中出現了問題卻沒有分析解決的思路。本文從一次生產環境事故引入這個話題,通過對於事故的分析過程,探討了平時沒有關注到的一些技術要點。二進制序列化結果並不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM