服務器型號:ThinkServer RD650
操作系統:Red Hat 6.7
業務用途:生產環境監控機
接到機房郵件通知,告知某台服務器硬盤告警,並提供了設備SN號和機櫃位置。根據提供想相關信息找到對應的設備IP並確定該設備的業務用途。
登錄到該設備確認SN號是否對應:
#dmidecode | egrep -A10 -i 'system infor' System Information Manufacturer: LENOVO Product Name: ThinkServer RD650 Version: XXXXX Serial Number:xxxxx # S/N號 UUID: xxxxx Wake-up Type: Power Switch SKU Number: LENOVO_MT_ND Family: ThinkServer Handle 0x0002, DMI type 2, 15 bytes
S/N號確認是該服務器,該服務器是一台監控機,確保業務沒有受到影響。通過 MegaCli64 命令查看物理磁盤狀況
#./MegaCli64 -PDList -aALL |grep "Firmware state" Firmware state: Online, Spun Up Firmware state: Online, Spun Up Firmware state: Offline Firmware state: Online, Spun Up
發現第三塊磁盤已經處於 Offline 的狀態,需要盡快處理,再次檢查 raid 級別:
#./MegaCli64 -LDInfo -Lall -aALL Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name :1 RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 # RAID 1 Size : 3.635 TB Mirror Data : 3.635 TB State : Degraded Strip Size : 64 KB Number Of Drives per span:2 Span Depth : 2 Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disabled Encryption Type : None Is VD Cached: No Exit Code: 0x00
通過查看得知,4塊盤做到 RAID 1, 雖說是監控機,但是4塊盤組 RAID 10 還是更好。
去到機房,換上備用的同型號容量的硬盤,在使用 MegaCli64 命令查看磁盤狀態:
#./MegaCli64 -PDList -aALL |grep "Firmware state" Firmware state: Online, Spun Up Firmware state: Online, Spun Up Firmware state: Rebuild Firmware state: Online, Spun Up
確認磁盤已經讀到,並 RAID組在重建。過上一段時間。再次查看重建的進度:
#./MegaCli64 -PDRbld -ProgDsply -PhysDrv [:2] -a0 說明: [:2] 磁盤從0開始,第三塊磁盤的索引是 2 。
動態可視化的重建進度如下圖:
位置索引為2的磁盤重建進度已經 99% 已耗時 5小時9分鍾,重建完成后,再次檢查物理磁盤的狀態:
#./MegaCli64 -PDList -aALL |grep "Firmware state" Firmware state: Online, Spun Up Firmware state: Online, Spun Up Firmware state: Online, Spun Up Firmware state: Online, Spun Up
所有磁盤都已經 Online 狀態,本次更換磁盤完畢,數據沒有受到任何的影響。
質疑一:
在 RAID 重建的時候,數據無法寫入到邏輯盤?
答:經過真實環境測試,RAID 在重建的時候,並不會影響數據的寫入操作。
此次是針對該服務器是監控機,數據並不重要的前提下,直接進行的熱插拔更換物理磁盤,重建 RAID 組,在業務服務器上,還請備份,備份,再備份進行磁盤的更換的操作,不要過分相信冗余和災備,一旦發生不可控事件,數據可能就無法恢復了,請慎重!
關於 MegaCli64 命令的使用,請參考:
http://www.ttlsa.com/tools/megacli-monitor-raid-status/