一、背景: 基於WebSocket長連接的消息服務進行全鏈路壓測,目標是實現最少100W長連接下壓測服務的各個接口TPS,QPS及其穩定性和資源消耗情況。 二、全鏈路架構圖 ...
在最近的一次百萬長連接壓測中, C G 的四台 Nginx 頻繁出現 OOM,出現問題時的內存監控如下所示。 排查的過程記錄如下。 現象描述 這是一個 websocket 百萬長連接收發消息的壓測環境,客戶端 jmeter 用了上百台機器,經過四台 Nginx 到后端服務,簡化后的部署結構如下圖所示。 在維持百萬連接不發數據時,一切正常,Nginx 內存穩定。在開始大量收發數據時,Nginx 內 ...
2020-09-28 21:36 0 469 推薦指數:
一、背景: 基於WebSocket長連接的消息服務進行全鏈路壓測,目標是實現最少100W長連接下壓測服務的各個接口TPS,QPS及其穩定性和資源消耗情況。 二、全鏈路架構圖 ...
一、業務背景+系統架構 本次場景為kafka+storm+redis+hbase,通過kafka的數據,進入storm的spout組件接收,轉由storm的Bolt節點進行業務邏 ...
前言 遇到Mysql死鎖問題,我們應該怎么排查分析呢?之前線上出現一個insert on duplicate死鎖問題,本文將基於這個死鎖問題,分享排查分析過程,希望對大家有幫助。 死鎖案發還原 表結構: 隔離級別: 數據庫版本: 關閉自動提交: 表中的數據 ...
前言 遇到Mysql死鎖問題,我們應該怎么排查分析呢?之前線上出現一個insert on duplicate死鎖問題,本文將基於這個死鎖問題,分享排查分析過程,希望對大家有幫助。 死鎖案發還原 表結構: 隔離級別: 數據庫版本: 關閉自動提交 ...
上周運維反饋線上程序出現了OOM,程序日志中的輸出為 看線程名稱應該是tomcat的nio工作線程,線程在處理程序的時候因為無法在堆中分配更多內存出現了OOM,幸好JVM啟動參數配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打開拿到的hprof文件進行分析 ...
以jpress新增文章接口為例 目錄 1、需求分析 2、場景設計 3、分析結果生成報告 1、需求分析 需求人員一般對系統提出性能要求:某接口10秒達到100並發,響應時間不能超過3秒,10分鍾穩定運行100用戶,error%不超過0.01%,cpu占用率不能超過80 ...
現象:通過nginx訪問,偶現502 排查步驟: 1、查看日志,無異常日志打印 2、抓包分析,發現發送http請求后,被源站直接發fin。 3、注釋代碼關鍵邏輯,測試。定位到是access.lua階段處理的問題。但因為沒有日志,代碼段太多,只能逐步排查 ...
1. 說明 Connection reset by peer異常算是老生常談的問題了,在度娘上一搜一大堆結果,今天借助我們測試環境的一個遇到的現象,給大家一個不一樣的視角,順帶總結下我的解決方案。 2. 背景簡述 近日在測試環境,組員在做某個項目穩定性場景測試,執行1小時后TPS斷崖 ...