Linux檢查硬件錯誤工具—mcelog命令


1、簡介

mcelog 是Linux 系統上用來檢查硬件錯誤,特別是內存和CPU錯誤的工具。未糾正的錯誤是關鍵異常,如果 CPU 無法恢復,往往會導致系統上的內核錯誤。這會導致應用程序重置和中斷。對於未糾正的錯誤,mcelog 捕獲錯誤的能力取決於錯誤導致熱重啟還是硬重啟。如果是熱重啟,信息會被 mcelog 捕獲,恢復后可看到。硬重啟會導致數據丟失,而且 mcelog 可能捕獲不到該事件。
2、安裝

 [root@RedHat_test ~]# yum install mcelog.x86_64


3、mcelog的啟動方式

     cron : 最老的方式,有確定,定時任務,會丟失一些
     daemon : el7上用這種,守護進程的方式
     trigger : 高級一點的方式,觸發的時候,看man mcelog


4、mcelog相關文件
 

/dev/mcelog 設備文件
     
     /var/log/mcelog messages日志文件
     
     /etc/mcelog/mcelog.conf配置文件
     
     /var/run/mcelog.pid
     默認故障日志只記錄在/var/log/mcelog,並不記錄到系統日志中。
     如果需要在系統日志中也體現,需修改/etc/mcelog/mcelog.conf文件,將前面#去掉,並保存。


5、mcelog后台運行

 [root@RedHat_test ~]# mcelog --daemon


6、查看系統是否異常
1.手動運行mcelog的方式

 [root@RedHat_test ~]# mcelog --daemon


2.查看mcelog日志

     [root@RedHat_test ~]# tail /var/log/mcelog
     # 什么也沒有輸出,表明正常


3.查看mcelog守護進程是否檢測到錯誤信息

     [root@RedHat_test ~]# mcelog --client
     # 什么也沒有輸出,表明正常

 

4.解析系統異常時的mcelog輸出
 

   [root@RedHat_test ~]# mcelog --ascii < file.log
     # or或者
     [root@RedHat_test ~]# mcelog --ascii --file file.log


7、測試
1.mce-inject用於測試mcelog能否正確的獲取硬件錯誤信息,並進行正確解碼,mce-inject可以向內核注入指定的錯誤信息,因此,可以很方便的了解到mcelog的功能是否正常。

注意的是,當用戶利用mce-inject工具向內核注入不可恢復錯誤(如:fatal)時,會發生死機重新啟動等現象,當然,可以通過更改sys文件系統下的tolerate文件來避免此現象的發生。

   

 [root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0


     ----------------------------------------------------------------------------------------
     位置 : /sys/devices/system/machinecheck/machinecheck*/
     說明 : 其中machinecheck* 中的 *號由CPU的個數所決定的,如果是雙核的,則存在machinecheck0和machinecheck1兩個目錄,對應目錄里都有一個tolerate文件,tolerate中存放容忍程度值。
     功能 : 向用戶提供一個可選擇的出現相應硬件錯誤時的容忍程度(tolerate),比如:當tolerate的值為1時,出現fatal錯誤時就會死機,重新啟動,並且該錯誤信息並不被記錄;當tolerate的值為3時(注意該值只用於測試),在出現fatal錯誤時,機器會容忍該錯誤不予響應,不會出現死機重新啟動現象,並且會記錄相關錯誤信息。
 

     [root@RedHat_test machinecheck0]# cat tolerant
     1
     [root@RedHat_test machinecheck0]# echo 3 > tolerant


     數值含義
     tolerate的取值可以為0、1、2、3。
     0: always panic on uncorrected errors, log corrected errors
     1: panic or SIGBUS on uncorrected errors, log corrected errors
     2: SIGBUS or log uncorrected errors (if possible), log corrected errors
     3: never panic or SIGBUS, log all errors (for testing only)

2.安裝

 [root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils


3.捏造文件

     [root@RedHat_test ~]# cat correct
     CPU 1BANK 2
     STATUS corrected
     RIP 0x12341234


4.加載mce-inject模塊

 [root@RedHat_test ~]# modprobe mce-inject


5.在終端執行文件

 [root@RedHat_test ~]# mce-inject ./correct



6.查看/var/log/mcelog,/var/log/messages

     [root@RedHat_test ~]# tail /var/log/mcelog
     TIME 1581565856Thu Feb 1311:50:56 2020
     MCG status:
     MCi status:
     Corrected error
     Error enabled
     MCA: No Error
     STATUS 9000000000000000MCGSTATUS 0
     MCGCAP 100010a APICID 1SOCKETID 0
     MICROCODE 1
     CPUID Vendor Intel Family 6Model 63
     [root@RedHat_test ~]# cat /var/log/messages
     Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
     Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged


8、同樣的方式,在el7上設置

tail /var/log/messages 可以看到日志,但是,/var/log/mcelog文件默認在el7上,卻不存在!!原因是,默認打到/var/log/messages ,不打到/var/log/mcelog。如果希望打到/var/log/mcelog,需要在mcelog 的service文件中,加入參數--logfile=/var/log/mcelog,然后重啟mcelog

 

ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog

 



————————————————
版權聲明:本文為CSDN博主「運維貓(運維開發)」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/yunweimao/article/details/106687895


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM