原文:記一次上線部分docker不打日志的問題排查

一次正常的上線,發了幾台docker后,卻發現有的機器打了info.log里面有日志,有的沒有。排查問題開始: 第一:確認這台docker是否有流量進來,確認有流量進來。 第二:確認這台docker磁盤是否慢了,磁盤沒有滿。 第三:確認這台docker日志級別,確認和其他docker一樣配置文件。 第四:這個時候就不知道了,病急亂投醫,把部署的包,docker的cpu 內存 tcp 線程數 gc都 ...

2019-07-19 09:26 0 442 推薦指數:

查看詳情

一次線上報錯日志問題排查

今天陽光明媚,掐指一算,今天比較適合划水。 於是早上到公司之后先是蹲了廁所,然后就准備翻閱公眾號推文。 看的正嗨,突然釘釘群里開始響了, 生產日志群報了一條警告,如下: 報錯信息很明確 定位到業務代碼如下 一個普普通通的map的put操作,怎么就報錯了呢?繼續往下 ...

Thu Apr 01 23:06:00 CST 2021 21 1547
一次上線就跪的故障排查案例

這個是我很早以前解決的一個案例,其現象是系統每次上線后,20多台機器,總有兩三機器,出現假死的情況。如何判斷出系統假死?借助的是一個第三方公司運維監控平台;這種情況,前同事稱之為的“假死”,需要重新啟動系統才能恢復。因為我是新來乍到,覺得這種情況不正常,而且對研發(在這邊是研發上線)來說,是一個 ...

Tue Apr 30 20:22:00 CST 2019 4 1634
一次排查CPU高的問題

背景 將log4j.xml的日志級別從error調整為info后,進行壓測發現CPU占用很高達到了90%多(之前也就是50%,60%的樣子). 問題排查 排查思路: 看進程中的線程到底執行的是什么,導致CPU占用較高. 1. 使用top命令查看到底是哪個應用 ...

Fri Nov 05 23:34:00 CST 2021 0 435
一次jvm oom 導致docker容器頻繁重啟問題排查

應用部署在docker容器中,日志無報錯,docker卻有多次重啟記錄,Nginx監控報警 過程: 1.執行top命令查看內存占用情況    很干凈的容器,只有java進程在運行 2.查看jvm情況   2.1 查看heap堆大小,可以使用jinfo -flags PID 查看 ...

Tue Oct 13 00:51:00 CST 2020 0 879
一次Docker中Redis連接暴增的問題排查

周六生產服務器出現redis服務器不可用狀態,錯誤信息為: 狀態不可用,等待后台檢查程序恢復方可使用。Unexpected end of stream; expected type 'Status' 如下圖所示,下圖6300就是我們redis服務器運行的端口。 頭一次碰到此類問題 ...

Mon Jun 08 03:37:00 CST 2020 0 1240
一次redis key丟失的問題排查

最近測試環境的redis經常性發生某些key丟失的問題,最終的找到的問題讓人大吃一驚。 復盤一下步驟: 1、發現問題 不知道從某天開始,后台經常報錯,原因是某些key丟失,一開始不在意,以為是小bug,后來越來越頻繁。 2、檢查代碼 看看是不是有誤刪除的情況,這些key的訪問范圍很小,壓根沒有刪除 ...

Thu Apr 25 22:19:00 CST 2019 0 1424
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM