背景 2018年8月15號下午6點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是“顯示未設置結束日期” 問題定位 收到調用方的消息后,我立即展開了問題的排查 1、通過服務管理平台查看服務是否出現超時及比對今天和昨天接口整體的響應 ...
記一次http超時引發的事故 前言 分析下具體的代碼實現 服務設置超時 客戶端設置超時 http.client context http.Transport 問題 總結 參考 記一次http超時引發的事故 前言 我們使用的是golang標准庫的http client,對於一些http請求,我們在處理的時候,會考慮加上超時時間,防止http請求一直在請求,導致業務長時間阻塞等待。 最近同事寫了一個 ...
2021-06-02 10:19 1 2707 推薦指數:
背景 2018年8月15號下午6點左右一個我們服務的調用方通知我們他們在調用服務接口時出現了大量的異常和通知,並且錯誤返回值都是“顯示未設置結束日期” 問題定位 收到調用方的消息后,我立即展開了問題的排查 1、通過服務管理平台查看服務是否出現超時及比對今天和昨天接口整體的響應 ...
從HTTP請求超時、重試機制、操作系統網絡等層面剖析了事故的原因,最終解決業務問題。 這里先拋兩個問題:1)你遭遇過由於網絡連接或請求超時造成的生產事故嗎?2)你知道操作系統默認的網絡連接超時是多少秒? 問題背景 最近同事出現這么一個問題,簡單業務場景: 服務A使用HTTP請求服務B ...
錯誤使用map引發的血案 前言 場景復原 原因 參考 錯誤使用map引發的血案 前言 最近業務中,同事使用map來接收返回的結果,使用waitGroup來並發的處理執行返回的結果,結果上線之后,直接崩了。 日志大量的數據庫緩存 ...
記一次訂單號事故 去年年底的時候,我們線上出了一次事故,這個事故的表象是這樣的: 系統出現了兩個一模一樣的訂單號,訂單的內容卻不是不一樣的,而且系統在按照 訂單號查詢的時候一直拋錯,也沒法正常回調,而且事情發生的不止一次,所以 這次系統升級一定要解決掉。 經手的同事之前也改過幾次 ...
在引入Spring的Validated時,需要聲明如下bean: 出於偷懶,放在了如下的一個初始化中: ...
話說今天的一個小小的查詢失誤給了我比較深刻的教訓,也讓我對mongo有了更深刻的理解,下面我們來說說這個事情的原委: 我們經常使用阿里雲子賬號在DMS上查詢線上數據庫數據,今天也是平常的一次操作 集合: XXXX_message數據量約 600萬 我執行了下面的mongo查詢 ...
寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可 ...
今天線上的hadoop集群崩潰了,現象是namenode一直在GC,長時間無法正常服務。最后運維大神各種倒騰內存,GC穩定后,服務正常。雖說全程在打醬油,但是也跟着學習不少的東西。 第一個 ...