問題描述 應用收到頻繁Full GC告警 問題排查 登錄到對應機器上去,查看GC日志,發現YGC一分鍾已經達到了15次,比Full GC還要頻繁一些,其中Full GC平均10分鍾超過了4次,如下圖 使用jstat -gcutil 5280 1000查看實時GC情況 ...
轉載於:https: zhangge.net .html 朋友弄了一個小項目,要我幫忙做下 Linux 系統運維,上線一段時間后,發現項目偶爾會掛掉導致服務不可用。開發朋友一時之間也沒空去研究項目奔潰的根因,只好由我這個運維先寫一個項目進程自拉起腳本,通過 Linux 任務計划每分鍾檢查一下進程是否存在來避免項目掛了沒人管的情況。 自拉起腳本很簡單,隨便寫幾行就搞定了: Shell bin bas ...
2018-07-31 10:17 0 2619 推薦指數:
問題描述 應用收到頻繁Full GC告警 問題排查 登錄到對應機器上去,查看GC日志,發現YGC一分鍾已經達到了15次,比Full GC還要頻繁一些,其中Full GC平均10分鍾超過了4次,如下圖 使用jstat -gcutil 5280 1000查看實時GC情況 ...
問題發現場景 某天突然收到線上應用的gc時間過長的告警,剛開始只有一台機器偶爾報一下,后續其他機器也紛紛告警,具體告警的閾值是應用10分鍾內ygc的總時長達到了6.6s。 初步排除過程 按照gc問題常規排查流程,還是先保留現場,jmap -dump:format=b,file ...
背景說明 組織架構被拆分為多個微服務 需求: 一個輸入框 查詢 前后模糊查詢 人員信息(工號、姓名),前后模糊查詢 單位名稱。 跨庫平級查詢!! ...
上周運維反饋線上程序出現了OOM,程序日志中的輸出為 看線程名稱應該是tomcat的nio工作線程,線程在處理程序的時候因為無法在堆中分配更多內存出現了OOM,幸好JVM啟動參數配置了-XX:+ ...
近期需要對公司的接口做線上的巡查監控,需要寫一個腳本放到服務器上,定時運行腳本監測線上接口是否正常。測試的接口不是HTTP協議,而是公司基於TCP協議開發的私有協議,因此不能直接用現成的一些接口測試工 ...
大家好,我是雨樂! 前幾天,突然收到報警,線上服務崩潰,然后自動重啟。 由於正值雙十一期間,業務以穩定為主,線上服務崩潰,這可不是一件小事,趕緊登陸線上服務器,分析原因,迅速解決。 借助這篇文章,記錄下整個崩潰的分析和解決過程。 收到報警 上午上班后,正在划水,突然收到郵件報警 ...
上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器 ...
公司對底層基礎庫進行了重構,線上穩定跑了幾天,在查看訂單系統的log時,有幾條error信息非常的奇怪, 訂單有狀態機進行維護 已經被撤消的訂單不能再進行有其他操作,和狀態更改。 已經支付的訂單,不能被撤消,只能退款或者部分退款。 這兩條log雖然沒有太大問題,關鍵問題 ...