起因:
公司新采購了一批DDR 2666MHZ 內存使用到線上,機房運維小A負載擴容內存到一批DELL R740xd 服務器上。這是一個簡單的工作,體力為主。剛剛吃完午飯接到項目組電話,催我回來處理大問題。一台服務器內存持續告警,查不到原因,明天上午就要交給業務組使用了,今天還沒有故障清零
詢問操作:
1. 新采購內存有一個報廢件,在內存卡槽B3 B4 上試了兩次無法開機
2. 更換新內存條后,在內存卡槽B4 正常開機並進入IDRAC 清理了系統日志,重啟了idrac racadm reset cold
3. 發現dell_exporter 內存告警持續處在。關機調整內存到B3卡槽 開機后復現問題
4. 內存壓測后 主機內存持續95% 10分鍾無故障點
解決問題:
dell_exporter 使用omreport 來收集服務器信息。
omreport chassis
Health
Main System Chassis
SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Critical : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Ok : Hardware Log
Ok : Batteries
問題在這里 om 中記錄了一份內存錯誤日志信息也要清除
dcicfg command=clearmemfailures Clearing failures using mask: 524287 A1: ok A3: ok B1: ok B3: ok omreport chassis Health Main System Chassis SEVERITY : COMPONENT Ok : Fans Ok : Intrusion Ok : Memory Ok : Power Supplies Ok : Power Management Ok : Processors Ok : Temperatures Ok : Voltages Ok : Hardware Log Ok : Batteries
解決問題 ,趕緊撤了回家還得肝原神哪