【文章推薦】記一次生產事故--磁盤被占滿

原文：記一次生產事故--磁盤被占滿

寫在前面今天，跑在阿里雲ECS上的生產環境，突然間訪問異常，接口各種報錯，無奈公司沒有專業的運維人員，只能硬着頭皮解決一下。問題排查先從表面看起，數據庫首先報錯直觀上看，設備沒有可用空間，也就是磁盤滿了。進入服務器后台，執行發現確實磁盤滿了，而且滿的很徹底。系統盤占用，估計什么服務都跑不動了。 dev vda G G 不過發現 dev mapper vg vol G G G data ...

2020-02-10 19:58 0 782 推薦指數：

查看詳情

記一次生產kafka消息消費的事故

事故背景：　　我們公司與合作方公司有個消息同步的需求，合作方是消息生產者，我們是消息消費者，他們通過kafka給我們推送消息，我們實時接收，然后進行后續業務處理。昨天上午，發現他們推送過來的廣場門店信息我們都沒有消費，導致我們系統和他們系統數據不一致，從而導致無法提單，無法出報表（報表有誤 ...

一次生產事故后感

今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故，前端所有請求都發送失敗。我是中途被通知出了事故的，這事甚至驚動了一些領導。期間有懷疑是我做的前端改動導致的問題。最終排查，發現是ngix的配置錯誤導致的，通過修改配置修復了問題。事情雖然結束過去 ...

深入認識二進制序列化--記一次生產事故的思考

一概要二進制序列化是公司內部自研微服務框架的主要的數據傳輸處理方式，但是普通的開發人員對於二進制的學習和了解並不深入，容易導致使用過程中出現了問題卻沒有分析解決的思路。本文從一次生產環境的事故引入這個話題，通過對於事故的分析過程，探討了平時沒有關注到的一些技術要點。二進制序列化結果並不 ...

記一次生產事故：30萬單就這樣沒了！

背景你好，我是彤哥。昨天晚上下班回家，在地鐵上，老大突然打來電話，B系統生產環境響應緩慢，影響了A系統的使用，幾萬小哥收不了單，大概有30萬單卡住了，你去幫忙定位一下。我8點半左右到家，立馬上線入會。重啟我入會的時候，已經有同事在幫忙定位了，俗話說的好，重啟能解決80%的問題 ...

驚魂36小時，一次生產事故，動態磁盤刪除卷分區丟失，數據恢復案例實戰

全是干貨和實戰，不上首頁天理不容一、事故來源 9月3日，在阿里雲服務器上進行了50g的磁盤擴容，然后對磁盤2新擴容的50G進行了操作擴展卷，發現E盤變成了141G，不對啊，我想給F盤擴容的，然后就做了一個讓我后悔的操作，對着那個小方塊點了一下刪除卷，彈出的確定框本能的就點擊了確定 ...

記一次生產dubbo線程池耗盡的問題

問題：　　dubbo線程池耗盡，活躍線程數超過線程池最大線程數（dubbo默認線程池最大線程數為200）登錄服務提供者所在服務器通過命令行連接dubbo：查看 ...

記一次生產請求耗時的問題

最近發現lb上記錄的request_time比upstream_response_time大的比較多，例如upstream_response_time記錄是0.062，request_time記 ...

原文：記一次生產事故--磁盤被占滿

相關推薦

相關標簽