記一次dell服務器內存告警故障


起因:

      公司新采購了一批DDR 2666MHZ 內存使用到線上,機房運維小A負載擴容內存到一批DELL R740xd 服務器上。這是一個簡單的工作,體力為主。剛剛吃完午飯接到項目組電話,催我回來處理大問題。一台服務器內存持續告警,查不到原因,明天上午就要交給業務組使用了,今天還沒有故障清零

 

詢問操作:

      1. 新采購內存有一個報廢件,在內存卡槽B3 B4 上試了兩次無法開機

      2. 更換新內存條后,在內存卡槽B4 正常開機並進入IDRAC 清理了系統日志,重啟了idrac racadm reset cold
      3. 發現dell_exporter 內存告警持續處在。關機調整內存到B3卡槽 開機后復現問題

      4. 內存壓測后 主機內存持續95% 10分鍾無故障點

 

解決問題:

      dell_exporter  使用omreport 來收集服務器信息。 

 

omreport chassis
Health

Main System Chassis

SEVERITY : COMPONENT
Ok       : Fans
Ok       : Intrusion
Critical : Memory
Ok       : Power Supplies
Ok       : Power Management
Ok       : Processors
Ok       : Temperatures
Ok       : Voltages
Ok       : Hardware Log
Ok       : Batteries

    問題在這里 om 中記錄了一份內存錯誤日志信息也要清除

dcicfg  command=clearmemfailures
Clearing failures using mask: 524287
A1: ok
A3: ok
B1: ok
B3: ok



omreport chassis 
Health

Main System Chassis

SEVERITY : COMPONENT
Ok       : Fans
Ok       : Intrusion
Ok       : Memory
Ok       : Power Supplies
Ok       : Power Management
Ok       : Processors
Ok       : Temperatures
Ok       : Voltages
Ok       : Hardware Log
Ok       : Batteries

 

解決問題 ,趕緊撤了回家還得肝原神哪

    


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM