contos7 使用zabbix監控物理磁盤狀態實例


一.系統環境:                                                                                                             

      物理機:dell R640

      操作系統:centos7

二.安裝MegaCli                                                                                                           

      監控主要是通過MegaCli 軟件獲取到物理主機的read及硬盤相關狀態信息。然后通過zabbix的自定義報警進行監控。

MegaCli是一款管理維護硬件RAID軟件,可以通過它來了解當前raid卡的所有信息,包括 raid卡的型號,raid的陣列類型,raid 上各磁盤狀態,等等。通常,我們對硬盤當前的狀態不太好確定,一般通過機房人員巡檢來完成,有沒有通過軟件的方式來檢查確定這個問題呢。MegaCli就可以做到,一般通過 MegaCli Media Error Count: 0 Other Error Count: 0 這兩個數值來確定陣列中磁盤是否有問題;Medai Error Count 表示磁盤可能錯誤,可能是磁盤有壞道,這個值不為0值得注意,數值越大,危險系數越高,Other Error Count 表示磁盤可能存在松動,可能需要重新再插入。MegaCli 可以對陣列中所有的磁盤進行檢測,我們可以通過腳本的方式來檢測相關參數,從而通知管理人員。

 

2.1、 下載MegCli,目前針對公司DB數據庫是IBM的服務器,直接從IBM官方下載,如果

 

其它服務器的,使用各官方下載或者 LSI網站上進行相關下載。一般來說,是通用的。這個包適用32 /64位操作系統平台 

 

下載地址:ftp://download2.boulder.ibm.com/ecc/sar/CMA/XSA/ibm_utl_sraidmr_megacli-8.00.48_linux_32-64.zip

 

2.2、 安裝 

 

#unzip ibm_utl_sraidmr_megacli-8.00.48_linux_32-64.zip

 

#cd linux

 

# rpm -ivh Lib_Utils-1.00-09.noarch.rpm  MegaCli-8.00.48-1.i386.rpm

 

MegaCli 使用命令介紹:

命令使用:
#/opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -Lall -aALL 查raid級別
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL 查raid卡信息
#/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL 查看硬盤信息
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -aAll 查看電池信息
#/opt/MegaRAID/MegaCli/MegaCli64 -FwTermLog -Dsply -aALL 查看raid卡日志
#/opt/MegaRAID/MegaCli/MegaCli64 -adpCount 【顯示適配器個數】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpGetTime –aALL 【顯示適配器時間】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aAll 【顯示所有適配器信息】
#/opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -LALL -aAll 【顯示所有邏輯磁盤組信息】
#/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll 【顯示所有的物理信息】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -aALL |grep ‘Charger Status’ 【查看充電狀態】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -aALL【顯示BBU狀態信息】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuCapacityInfo -aALL【顯示BBU容量信息】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuDesignInfo -aALL 【顯示BBU設計參數】
#/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuProperties -aALL 【顯示當前BBU屬性】
#/opt/MegaRAID/MegaCli/MegaCli64 -cfgdsply -aALL 【顯示Raid卡型號,Raid設置,Disk相關信息】
3.磁帶狀態的變化,從拔盤,到插盤的過程中。
Device |Normal|Damage|Rebuild|Normal
Virtual Drive |Optimal|Degraded|Degraded|Optimal
Physical Drive |Online|Failed –> Unconfigured|Rebuild|Online
4.查看磁盤緩存策略
#/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -L0 -a0
or
#/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -L1 -a0
or
#/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -LALL -a0
ro
#/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -LALL -aALL
ro
#/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -DskCache -LALL -aALL
5.設置磁盤緩存策略
緩存策略解釋:

WT (Write through
WB (Write back)
NORA (No read ahead)
RA (Read ahead)
ADRA (Adaptive read ahead)
Cached
Direct
例子:
#/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp WT|WB|NORA|RA|ADRA -L0 -a0
or
#/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -Cached|-Direct -L0 -a0
or
enable / disable disk cache
#/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -EnDskCache|-DisDskCache -L0 -a0
6.創建一個 raid5 陣列,由物理盤 2,3,4 構成,該陣列的熱備盤是物理盤 5
#/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct -Hsp[1:5] -a0
7.創建陣列,不指定熱備
#/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct -a0
8.刪除陣列
#/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdDel -L1 -a0
9.在線添加磁盤
#/opt/MegaRAID/MegaCli/MegaCli64 -LDRecon -Start -r5 -Add -PhysDrv[1:4] -L1 -a0
10.陣列創建完后,會有一個初始化同步塊的過程,可以看看其進度。
#/opt/MegaRAID/MegaCli/MegaCli64 -LDInit -ShowProg -LALL -aALL
或者以動態可視化文字界面顯示
#/opt/MegaRAID/MegaCli/MegaCli64 -LDInit -ProgDsply -LALL -aALL
11.查看陣列后台初始化進度
#/opt/MegaRAID/MegaCli/MegaCli64 -LDBI -ShowProg -LALL -aALL
或者以動態可視化文字界面顯示
#/opt/MegaRAID/MegaCli/MegaCli64 -LDBI -ProgDsply -LALL -aALL
12.指定第 5 塊盤作為全局熱備
#/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0
13.指定為某個陣列的專用熱備
#/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set [-Dedicated [-Array1]] [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0
14.刪除全局熱備
#/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Rmv -PhysDrv[1:5] -a0
15.將某塊物理盤下線/上線
#/opt/MegaRAID/MegaCli/MegaCli64 -PDOffline -PhysDrv [1:4] -a0
#/opt/MegaRAID/MegaCli/MegaCli64 -PDOnline -PhysDrv [1:4] -a0
16.查看物理磁盤重建進度
#/opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ShowProg -PhysDrv [1:5] -a0
或者以動態可視化文字界面顯示
#/opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ProgDsply -PhysDrv [1:5] -a0

磁帶狀態的變化,從拔盤,到插盤的過程中:
Device |Normal|Damage|Rebuild|Normal
Virtual Drive |Optimal|Degraded|Degraded|Optimal
Physical Drive |Online|Failed –> Unconfigured|Rebuild|Online

常用命令:

查看硬盤信息

# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL

檢查磁盤的正常與否主要看上圖中紅框中的參數,若error不為0 ,Firmware state 為Failed則硬盤故障。

查詢日志信息:

#/opt/MegaRAID/MegaCli/MegaCli64 -FwTermLog -Dsply -aALL

可以查詢到硬盤的報錯信息。

查看rebuild進度,當硬盤故障換盤后,會有一段時間硬盤處於rebuild狀態重新平衡數據。可以通過這個命令查看進度:

# /opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ShowProg -PhysDrv[32:5] -aAll

其中的[32:5]   可以通過上面查看硬盤信息的命令獲取到

32 是指 Enclosure Device ID

5  是指Slot Number

上圖則表示已經完成了百分之16

 

read10硬盤替換可以參考文章:https://blog.csdn.net/cjfeii/article/details/51781978

 

3.zabbix監控腳本                                                                                  

#此腳本用於檢測物理磁盤狀態
#!/bin/bash
#check raid disk status
MEGACLI="/opt/MegaRAID/MegaCli/MegaCli64 "
a=1
b=1
$MEGACLI -pdlist -aALL  | grep "Firmware state" | awk -F : '{print $2}' | awk -F , '{print $1}' >/tmp/fireware.log
$MEGACLI -pdlist -aALL  | grep -E "Media Error|Other Error" | awk -F : '{print $2}' >/tmp/disk.log
for i in `cat < /tmp/disk.log`
do
if [ $i -ne 0 ]
        then
        a=0
fi
done
for i in `cat < /tmp/fireware.log`
do
if [ $i !=  Online ]
        then
        b=0
fi
done

#返回1則表示正常,返回0則表示不正常,磁盤有問題
echo $(($a*$b))  

配置zabbix客戶端,添加腳本參數:

UnsafeUserParameters=1
UserParameter=PYDISK,/usr/local/scripts/checkpydisk.sh

給腳本賦予zabbix用戶權限

# chown zabbix:zabbix /usr/local/scripts/ -R

#chmod 755 /usr/local/scripts/checkpydisk.sh

重啟客戶端

# systemctl  restart zabbix-agent

客戶端測試:

# zabbix_agentd -t PYDISK

若有問題后面獲取的值則為0

4.zabbix 界面報警配置。                                                            

 

添加監控項:

添加觸發器:

配置完成。

 

參考文章:http://blog.chinaunix.net/uid-25135004-id-3139293.html

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM