因Window服務器自動更新並重啟導致WebSphere服務停止服務故障一例


最近公司購買了兩台Windows Server 2008 R2服務器用於提供提供Web服務,A機器安裝了IHS+DM+WAS8.5集群,B機器安裝了Oracle11gR2用於數據存儲,兩台機器均可連接互聯網。

服務部署頭天晚上部署,測試沒有任何問題,早上用戶打電話反饋無法正常訪問站點,遠程登錄后發現IHS+DM服務正常,但是集群沒有啟動,查看任務管理器發現沒有nodeagent和集群中server的進程,手動啟動nodeagent后啟動集群,兩個Server正常啟動,隨后正常提供服務。當時懷疑服務器是否重新啟動導致服務異常,也懷疑是程序的問題,但手頭事情比較多就沒有持續跟進;可是同樣的事情在第二天又發生了,早上一起來就發現服務無法訪問。這次不能無視了。。。收集了相關日志后,手動啟動nodeagent和集群並提供服務后就開始進行問題排查。

1、檢查WebSphere Server日志

檢查了集群各幾點Server的SystemOut.log日志,發現在3點15分突然爆出如下日志:

[16-3-22 3:15:16:482 CST] 0000004e Peer          I   ODCF8534I: 已除去鄰居 ip=192.168.1.8 udp=11011 tcp=11012 ID=a0afd7f939ef4c971fe6825780126b1741b2f9ff version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=false;properties={inOdc=1, epoch=1458522523691, MEMBER_STARTUP_TIME=1458522519269, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGANode01\AppSrv02, MEMBER_VERSION=4},鄰居集現在為 2 nodes
0  ip=192.168.1.8 udp=11008 tcp=11007 ID=f271d5e15b5f3696eb6b30d9ef41532f9c5a81e8 version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=true;properties={inOdc=1, epoch=1458522483936, MEMBER_STARTUP_TIME=1458522480920, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGANode01\nodeagent, MEMBER_VERSION=4}
1  ip=192.168.1.8 udp=11005 tcp=11006 ID=63a7efddbd567d67083efb4fc6a7727dd79c4c32 version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=true;properties={inOdc=1, MEMBER_VERSION=4, epoch=1458503412906, ODC_PUBLISHER_ONLY=false, MEMBER_STARTUP_TIME=1458503408859, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGACellManager01\dmgr}
。

其余幾行無關緊要的信息輸出后就一片沉寂了。

2、檢查WebSphere DM日志

檢查DM SystemOut.log日志發現DM在晚上3點15分左右輸出服務停止和啟動的日志,但停止和啟動原因不明。

3、檢查WebSphere FFDC日志

通過對dmgr的ffdc目錄中的日志文件按照日期進行排序,發現3月22日有兩個日志文件;

dmgr_exception.log.1458587814531.txt

dmgr_25be7f2a_16.03.22_03.16.54.5782445606813376690951.txt

發現如下輸出:

[16-3-22 3:16:54:578 CST]     FFDC Exception:java.io.IOException SourceId:com.ibm.ws.management.discovery.DiscoveryService.sendQuery ProbeId:189 Reporter:com.ibm.ws.management.discovery.DiscoveryService@48071f19
java.io.IOException: ADMD0004E: 無法打開 TCP 套接字:WIN-RU03CB21QGA:7272。請檢查遠程進程是否已打開端口。

“無法打開TCP套接字”是不是網絡的問題,那么網絡出現什么問題呢?斷網也不至於讓服務重啟啊?是不是操作系統本身在做什么操作呢?那就根據時間點查看一下操作系統的日志吧。

4、檢查Windows事件查看器中的日志

點擊“開始--》管理工具--》事件查看器”,在Windows日志節點下點擊“系統”,在右側的事件列表中按照時間點3.15左右進行事件的過濾,最終找到了問題所在;

QQ截圖20160322173459

原來雲服務提供商的這台操作系統設定在凌晨三點進行系統更新,系統更新后自動進行系統重啟。

IHS+DM在Windows平台下默認以服務形式啟動,能夠跟隨操作系統啟動,而nodeagent不是服務,不能隨操作系統啟動而啟動,這就導致了服務無法正常啟動的原因。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM