原文:記一次生產事故:30萬單就這樣沒了!

背景 你好,我是彤哥。 昨天晚上下班回家,在地鐵上,老大突然打來電話,B系統生產環境響應緩慢,影響了A系統的使用,幾萬小哥收不了單,大概有 萬單卡住了,你去幫忙定位一下。 我 點半左右到家,立馬上線入會。 重啟 我入會的時候,已經有同事在幫忙定位了,俗話說的好,重啟能解決 的問題,如果重啟解決不了,那肯定是重啟的次數還不夠,呸,不對,重啟解決不了,就真的要去定位了。 事實證明,重啟后走一波壓測依然 ...

2020-09-24 11:59 25 4139 推薦指數:

查看詳情

一次生產事故--磁盤被占滿

寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可用空間,也就是磁盤滿了。 進入服務器后台,執行 發現確實磁盤滿了,而且滿的很徹底。系統盤 ...

Tue Feb 11 03:58:00 CST 2020 0 782
一次生產kafka消息消費的事故

事故背景:   我們公司與合作方公司有個消息同步的需求,合作方是消息生產者,我們是消息消費者,他們通過kafka給我們推送消息,我們實時接收,然后進行后續業務處理。昨天上午,發現他們推送過來的廣場門店信息我們都沒有消費,導致我們系統和他們系統數據不一致,從而導致無法提單,無法出報表(報表有誤 ...

Wed Jun 12 18:07:00 CST 2019 0 571
一次生產事故后感

今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故, 前端所有請求都發送失敗。 我是中途被通知出了事故的,這事甚至驚動了一些領導。 期間有懷疑是我做的前端改動導致的問題。 最終排查,發現是ngix的配置錯誤導致的,通過修改配置修復了問題。 事情雖然結束過去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
深入認識二進制序列化--一次生產事故的思考

一 概要 二進制序列化是公司內部自研微服務框架的主要的數據傳輸處理方式,但是普通的開發人員對於二進制的學習和了解並不深入,容易導致使用過程中出現了問題卻沒有分析解決的思路。本文從一次生產環境的事故引入這個話題,通過對於事故的分析過程,探討了平時沒有關注到的一些技術要點。二進制序列化結果並不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
一次生產dubbo線程池耗盡的問題

問題:   dubbo線程池耗盡,活躍線程數超過線程池最大線程數(dubbo默認線程池最大線程數為200) 登錄服務提供者所在服務器 通過命令行連接dubbo: 查看 ...

Fri Apr 03 19:04:00 CST 2020 0 3640
一次生產請求耗時的問題

最近發現lb上記錄的request_time比upstream_response_time大的比較多,例如upstream_response_time記錄是0.062,request_time記 ...

Sat Mar 30 16:34:00 CST 2019 3 1869
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM