寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可用空間,也就是磁盤滿了。 進入服務器后台,執行 發現確實磁盤滿了,而且滿的很徹底。系統盤 ...
事故背景: 我們公司與合作方公司有個消息同步的需求,合作方是消息生產者,我們是消息消費者,他們通過kafka給我們推送消息,我們實時接收,然后進行后續業務處理。昨天上午,發現他們推送過來的廣場門店信息我們都沒有消費,導致我們系統和他們系統數據不一致,從而導致無法提單,無法出報表 報表有誤 等各種問題 排查過程: 因為coco身體不適,上午請假去醫院了,所以這個問題就轉給我們team的專門運維的同事 ...
2019-06-12 10:07 0 571 推薦指數:
寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可用空間,也就是磁盤滿了。 進入服務器后台,執行 發現確實磁盤滿了,而且滿的很徹底。系統盤 ...
今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故, 前端所有請求都發送失敗。 我是中途被通知出了事故的,這事甚至驚動了一些領導。 期間有懷疑是我做的前端改動導致的問題。 最終排查,發現是ngix的配置錯誤導致的,通過修改配置修復了問題。 事情雖然結束過去 ...
一 概要 二進制序列化是公司內部自研微服務框架的主要的數據傳輸處理方式,但是普通的開發人員對於二進制的學習和了解並不深入,容易導致使用過程中出現了問題卻沒有分析解決的思路。本文從一次生產環境的事故引入這個話題,通過對於事故的分析過程,探討了平時沒有關注到的一些技術要點。二進制序列化結果並不 ...
背景 你好,我是彤哥。 昨天晚上下班回家,在地鐵上,老大突然打來電話,B系統生產環境響應緩慢,影響了A系統的使用,幾萬小哥收不了單,大概有30萬單卡住了,你去幫忙定位一下。 我8點半左右到家,立馬上線入會。 重啟 我入會的時候,已經有同事在幫忙定位了,俗話說的好,重啟能解決80%的問題 ...
問題: dubbo線程池耗盡,活躍線程數超過線程池最大線程數(dubbo默認線程池最大線程數為200) 登錄服務提供者所在服務器 通過命令行連接dubbo: 查看 ...
早上上班后得知,服務費未同步到代理商系統。查看draft_server系統生產環境的log,顯示在往RabbitMQ推數據時出現異常:no route to host。 打開vpn連接到生產環境,用本地test程序嘗試往生產的mq推數據,發現正常。接下來,rpc調用生產 ...
最近發現lb上記錄的request_time比upstream_response_time大的比較多,例如upstream_response_time記錄是0.062,request_time記 ...