原文:一次resin服務器故障排查,以及jstack初步了解

不知道為什么,窗外出現了烏雲,又不知道為什么,煩人的蟬鳴突然變得無聲了,大腦中的嘈雜瞬間歸位了寧靜,草他么,我的測試服務器又特么無緣無故的崩了。 作為菜鳥為了排查故障,最先想到的就是找日志,先后分析了項目啟動日志,resin啟動日志,jvm日志完全看不出來結果。 .jvm日志顯示gc正常,內存沒有溢出。 .resin進程在,啟動日志也沒有報錯。 .項目日志有條警告,log j和另外一個log包有 ...

2015-08-19 20:54 0 2048 推薦指數:

查看詳情

服務器故障排查三板斧:記一次IIS報503/502錯誤故障排查過程

背景   近期被抓壯丁解決一個幾年前的系統故障,經過反復排查多次監控后終於成功解決,記錄分享一下心得吧! 故障描述   具體表現為在高峰訪問期間,IIS直接報服務器處理503。 系統部署 采用ARR實現的IIS Sever Farm進行負載均衡 ...

Tue Feb 21 04:11:00 CST 2017 0 4501
服務器一次對Close_Wait 狀態故障排查經歷

最近接連聽說一台線上服務器總是不響應客戶端請求。 登錄服務器后查詢iis狀態,發現應用程序池狀態變為已停止。 按經驗想,重啟后應該就ok,第一次遇到也確實起了作用,當時完全沒在意,以為是其他人無意把服務關閉了而已。 但是之后幾天幾乎每天都出現問題,應用程序池再次成為 已停止 狀態。這個情況 ...

Fri Dec 08 02:36:00 CST 2017 0 15779
一次dell服務器內存告警故障

起因: 公司新采購了一批DDR 2666MHZ 內存使用到線上,機房運維小A負載擴容內存到一批DELL R740xd 服務器上。這是一個簡單的工作,體力為主。剛剛吃完午飯接到項目組電話,催我回來處理大問題。一台服務器內存持續告警,查不到原因,明天上午就要交給業務組使用了,今天還沒有 ...

Thu Dec 23 06:13:00 CST 2021 0 904
記錄一次服務器突然宕機的排查

服務器突然宕機,領導找了服務器供應商,然后供應商發來一張馬賽克畫質的圖片。說是我們做了什么操作,透過馬賽克,隱約能看到一些 以及一些,供應商說是因為升級操作導致的,但是上面分明是22號升級的,23號宕的機。 全圖(眼差點瞎了) 查看系統日志 所有日志目錄 查看 ...

Mon Nov 25 23:33:00 CST 2019 0 347
一次服務器CPU占用100%的問題排查

今天寫了一段垃圾代碼,然后上服務器上運行,cpu瞬間飆到了100%,現記錄一下問題排除過程~ 1. 問題代碼 2. top 3. 查找問題 3.1 top -Hp 18571, 找出最耗cpu的線程,結果發現18584是就耗了99.9 ...

Wed Oct 23 06:17:00 CST 2019 0 829
一次服務器高CPU的排查思路

現象 排查思路 另一台服務器CPU正常,由於消息中心有部分老接口是域名調用的,網關已做負載均衡,並且pinpoint上的兩台服務器gc如圖,初步猜測是否是負載不均衡導致。 經運維調試nginx權重無效,證明與負載均衡無關。那么先看子線程,這種情況 ...

Wed Sep 25 22:46:00 CST 2019 0 673
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Mon May 14 08:49:00 CST 2018 1 1935
通過jstack與jmap分析一次線上故障

一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨着時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,后面重啟了機器后恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 1.系統本身代碼問題 2.內部下游系統的問題導致的雪崩 ...

Sat Mar 30 00:34:00 CST 2019 0 1788
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM