一次正常的上線,發了幾台docker后,卻發現有的機器打了info.log里面有日志,有的沒有。排查問題開始: 第一:確認這台docker是否有流量進來,確認有流量進來。 第二:確認這台docker磁盤是否慢了,磁盤沒有滿。 第三:確認這台docker日志級別,確認 ...
這個是我很早以前解決的一個案例,其現象是系統每次上線后, 多台機器,總有兩三機器,出現假死的情況。如何判斷出系統假死 借助的是一個第三方公司運維監控平台 這種情況,前同事稱之為的 假死 ,需要重新啟動系統才能恢復。因為我是新來乍到,覺得這種情況不正常,而且對研發 在這邊是研發上線 來說,是一個非常大的上線負擔 於是我決定解決一下這個 百年難題 。 我親自上線,果然很快就碰到了假死的機器。我看到機器 ...
2019-04-30 12:22 4 1634 推薦指數:
一次正常的上線,發了幾台docker后,卻發現有的機器打了info.log里面有日志,有的沒有。排查問題開始: 第一:確認這台docker是否有流量進來,確認有流量進來。 第二:確認這台docker磁盤是否慢了,磁盤沒有滿。 第三:確認這台docker日志級別,確認 ...
該項目是一個微信轉盤游戲抽獎營銷項目,由於運營營銷時間要求緊迫,開發測試部署上線用了10天不到,有些准備工作並沒有到位,如: 1.由於整體開發在上線前2天才完成,測試了解這個項目需求是在開發的第二周,並沒有充足的時間進行完善的功能,UI機型適配,系統壓力測試。 2.技術上由於合作方的公眾號密鑰 ...
背景 近期被抓壯丁解決一個幾年前的系統故障,經過反復排查多次監控后終於成功解決,記錄分享一下心得吧! 故障描述 具體表現為在高峰訪問期間,IIS直接報服務器處理503。 系統部署 采用ARR實現的IIS Sever Farm進行負載均衡 ...
解Bug之路-記一次存儲故障的排查過程 高可用真是一絲細節都不得馬虎。平時跑的好好的系統,在相應硬件出現故障時就會引發出潛在的Bug。偏偏這些故障在應用層的表現稀奇古怪,很難讓人聯想到是硬件出了問題,特別是偶發性出現的問題更難排查。今天,筆者就給大家帶來一個存儲偶發性故障的排查過程。 Bug ...
問題來源 因為經常有各種各樣的大小項目要跑,全部放一個tomcat很慢,所以俺平時喜歡新建80-89這10個tomcat,分別放不同的項目。以前還一直用的好好的,昨天突然發現87端口的tomcat怎么都訪問不了,本來大不了換一個別的端口就了事,但是我覺得問題既然碰到了就要徹底排查,不然下次再碰到 ...
上周晚上,某環境 ES 出現阻塞, 運行緩慢。於是開始排查問題的過程。 開始 思路:現象是阻塞,通常是 CPU 彪高,導致業務線程分配不到 CPU 時間片,或者內存吃緊,頻繁 GC 導致的 STW。 登錄到目標服務器,由於 ES 的用戶不是 LZ,因此找運維要了 root 權限,登錄到服務器 ...
轉貼:http://my.oschina.net/flashsword/blog/205266 本文是一次線上OOM故障排查的經過,內容比較基礎但是真實,主要是記錄一下,沒有OOM排查經驗的同學也可以參考。 現象 我們之前有一個計算作業。最近經常出現不穩定,無法正常響應的情況。具體表現 ...
1、發現服務器變的特別卡,正常服務運行很慢。 到服務器上查詢一番發現top下發現 bashd的進程占用100%CPU了。 find /-name bashd* //第一次查詢文件占用目錄kill -9 pid(bashd) //刪除bashd進程 ...