VERITA備份日常監控
一. 相關檢查方法、命令
1.1 啟動NBU的圖形管理界面:
/usr/openv/netbackup/bin/jnbSA &
1.2字符界面命令:
1.2.1catlog 日志備份時間
bpdbjobs |grep -i cata|grep " 0 " |head -1|awk '{print "/usr/openv/netbackup/bin/admincmd/bpdbjobs -all_columns -jobid ",$1}'
1.2.2文件系統使用率
df -h
1.2.3空白磁帶數目是否充足
available_media |grep -i tld |grep -i ava|wc -l
1.2.4最近失敗的200條作業,備份時間過長的也需要注意
bpdbjobs |grep -v " 0 " |head -200
1.2.6驅動器狀態
vmoprcmd -d
二. 日常檢查流程
2.1確認VERITAS NBU進程狀態
2.2確認備份任務狀態
2.3確認磁帶、磁帶機的工作狀態
2.4確認文件系統狀態
2.1檢查NBU進程狀態:
需要每天監控activity monitor,確認在備份服務器上運行的進程有:avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
如果前四個進程avrd、vmd、tldd、ltid有一個沒有運行,則備份系統工作不正常。
簡單的處理方法:重新啟動NBU服務器進程
方法如下:
a)退出NBU的java管理界面,以root身份在命令行狀態下輸入:netbackup stop
b)使用bpps –a檢查上述進程的狀態
c)如果進程沒有被kill干凈,繼續執行netbackup stop命令。
d)如果無法結束所有的進程,需要使用bp.kill_all來進行終結。
e)當使用bpps –a看到沒有NBU的進程輸出時,表明所有的NBU進程已經結束。使用命令:netbackup start啟動NBU進程,並用bpps –a確認。
f)如果問題依然存在,請與廠家聯系檢查VERITAS工作狀態。
2.2檢查備份任務狀態。
需要每天監控activity monitor,觀察已經發生備份的任務狀態返回值,返回值為0表明備份成功;如果返回值不為0,表明備份失敗。對於數據庫Archivelog的備份,由於備份的頻率目前設置為每一小時一次,因此如果在下面的備份作業中,如果Archivelog的備份成功,可以忽略上面錯誤的備份。
典型的備份錯誤有:
a)
Archivelog備份返回值為1,而且后續的備份均返回1。
通常情況,需要進行Oracle 數據庫的Archivelog同步。
Oracle數據庫Archivelog同步的方法為:
以Oracle數據庫用戶登錄到Oracle數據庫服務上,通過RMAN來運行下面的命令:
$ su – oracle
$ rman
RMAN> connect target /
RMAN> change archivelog all validate;
RMAN> exit
b)
備份作業返回值為41、54。
檢查服務器網絡工作狀態:
首先找到備份失敗的服務器IP地址,確認IP地址可以ping通。
使用telnet工具,進行如下操作:
telnet 服務器IP地址 13782
如果返回信息如下,表明VERITAS NBU通信正常。
Trying...
Connected to 服務器IP地址.
Escape character is '^]'.
如果系統直接返回到命令行狀態,請檢查問題服務器的service和inetd設置,確保bpcd進程存在。
並使用如下命令檢查bpcd的工作狀態:
netstat |grep bpcd
c)
備份作業返回96、219。
請檢查磁帶機、磁帶的工作狀態
2.3檢查磁帶和磁帶機狀態:
磁帶機和磁帶常見的錯誤為96、219,需要確認磁帶機狀態是否up,磁帶庫是否閃紅燈,使用bpmedialist命令查看是否磁帶已經寫滿或者處於frozen狀態,磁帶是否卡在了磁帶機里。
如果磁帶顯示frozen,可以使用bpmedia –unfreeze –m labelid來清除此狀態,如果磁帶反復顯示frozen,可能磁帶壞,請與廠家聯系磁盤檢查。
補充:可以在java界面中選擇“Media and Device Management”來查看現在media分配的情況。
觀察磁帶機工作狀態的方式有2種:Java GUI界面和命令行。
a)
Java GUI界面方式:
在Java GUI界面下,可以在Media and Device ManagementàDevice Monitor選項中,觀察到磁帶機的狀態。例如磁帶機正在使用中、磁帶機DOWN、磁帶機空閑等。
b)
命令行方式:
使用命令行方式觀察磁帶機的狀態,相關的命令有vmdareq、vmoprcmd。
如果觀察到磁帶機DOWN,建議先檢查是否有卡帶現象。確定沒有卡帶現象后,可以做簡單的磁帶機UP操作。磁帶機UP操作可以通過上面所述的Java GUI界面和命令行方式來執行。命令行方式舉例如下:
vmoprcmd –h hostID –up driveID
其中,hostID是SSO服務器名稱,driveID是磁帶機的序號,目前備份系統中2台磁帶機的序號取值為0和1。
經過簡單UP后,如果磁帶機仍然出現DOWN現象,請與廠家聯系解決。
2.4檢查文件系統狀態
在備份服務器和其它服務器上使用如下命令
df –k
確認文件系統有可以使用的空間。文件系統如果寫滿,備份系統將工作不正常。
備注:
如果經過了很長時間(如7,8個小時)一個備份任務一直處於active或者queued狀態,同時顯示此任務的字節數沒有增長,需要把此任務kill掉。因為這樣會阻止下一個任務的執行。
三NBU常用的命令
- 在命令提示符下輸入available_media,查看當前磁帶使用情況
- 在命令提示符下輸入bpmedialist命令查看當前磁帶使用情況及是否凍結
- 在命令提示符號下輸入bpexpdate –m a00001 –d 0來使磁帶過期
- 在命令提示符號下輸入bpmedia –unfreeze –m a00001來使磁帶解除凍結狀態
- 在命令提示符號下輸入vmquery –m a00001來查看磁帶的歸屬情況
- 在命令提示符號下輸入vmquery –deassignbyid a00001 4 0來取消磁帶的分配日期
- 在命令提示符號下輸入bprecover –l a00001 –d hcart來查看catalog磁帶中的內容
- 在命令提示符號下輸入bprecover –r a00001 –d hcart來恢復catalog
- 在命令提示符號下輸入bpexpdate –backupid wbs_1039674374 –d 0來刪除一個備份影像,其中wbs_1039674374是backupid,可以通過report中的Images on Media報告來查看backupid
- 如何收集NBU備份服務器的相關信息
查看並導出所有備份策略內容到c:bppllist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bppllist -allpolicies -L -verbose >c:bppllist1.txt - 列出當前存儲單元並導出內容到c:bpstulist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpstulist -L -verbose >c:bpstulist1.txt - 查看磁帶使用情況並導出內容到c:available_media.txt:
C:Program FilesVERITASNetBackupbingoodies>available_media >c:available_media.txt - 查看磁帶歸屬情況:
顯示所有卷並導出內容到c:vmquery.txt:
C:Program FilesVERITASVolmgrbin>vmquery -a >c:vmquery.txt - 列出卷池並導出內容到c:vmpool.txt:
C:Program FilesVERITASVolmgrbin>vmpool -listall >c:vmpool.txt - 列出license導出內容到c:nbulicense.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpminlicense -list_keys> c:nbulicense.txt
其它信息請用nbsupport170工具收集。方法是解壓縮nbsupport170
.zip到備份服務器上某個臨時文件夾,運行nbsupport.exe,然后在當前文件夾下的output中會生成一個.cab打包文件。所有與備份服務器運行相關的信息文件全在里面。
16、bpexpdate過期磁帶,報”requested media id is in use”錯誤解決辦法
如果你確認這個media並沒有在使用,可以手工釋放這個media占用的資源
首先使用/usr/openv/netbackup/bin/admincmd/nbrbutil -dump命令得到磁帶占用資源的id
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump
Allocation Requests
(AllocationRequestSeq )
MDS allocations in EMM:
MdsAllocation: allocationKey=91666 jobType=1 mediaKey=4000261 mediaId=YZ5350 driveKey=2000012 driveName=HP.ULTRIUM4-SCSI.004 drivePath=/dev/nst0 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1
MdsAllocation: allocationKey=91667 jobType=1 mediaKey=4000264 mediaId=YZ5353 driveKey=2000008 driveName=HP.ULTRIUM4-SCSI.000 drivePath=/dev/nst5 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1
nbumaster:~ #
然后使用/usr/openv/netbackup/bin/admincmd/nbrbutil –releaseMDS 即上面的“allocationKey=”后面相應的數值,來釋放資源
這樣我們便能成功執行bpexpdate命令
17、查詢目前有哪些磁帶正在被哪個驅動器調用,以及正在運行哪些備份任務
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump
18、列出所有的job的明細
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs
將bpdbjobs輸出到/tmp/bpdbjobs.txt文件中
bpdbjobs -file /tmp/bpdbjobs.txt
列出所有作業的摘要,可查看目前正處於ACTIVE的任務有多少個
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs -summary
MASTER SERVER QUEUED REQUEUED ACTIVE SUCCESS PARTSUCC FAILED INCOMP SUSP WAITING_RETRY TOTAL
nbumaster 0 0 5 1320 0 43 0 0 0 1368
nbsupport170工具可以向veritas技術支持中心獲取。
-
Solaris下:
/usr/openv/volmgr/bin/sgscan changer 查看本機所有Robot設備;
/usr/openv/volmgr/bin/sgscan tape 查看本機所有的磁帶驅動器。
/usr/openv/volmgr/bin/sgscan disk 查看本機所有的disk,包括本地磁盤和共享磁盤。 -
robot及磁帶驅動器配置:
/usr/openv/volmgr/bin/tpconfig 提供add ,delete,list NBU可以識別並使用的物理設備。
/usr/openv/volmgr/bin/stopltid
/usr/openv/volmgr/bin/stopltid <參數> :當修改配置后請重啟:ltid(設備管理進程)。
tpconfig: 可以進入文本菜單。 先配置robot,再配置磁帶驅動器。
/usr/openv/volmgr/bin/tpconfig -d 可以查看磁帶驅動器及robot細節情況。
當配置完成之后,一定要重啟ltid進程。
robtest
tpconfig -d
Id DriveName Type Residence
Drive Path Status
0 HP.ULTRIUM3-SCSI.000 hcart3 TLD(0) DRIVE=1
/dev/rmt/0cbn UP
/dev/rmt/1cbn UP
Currently defined robotics are:
TLD(0) robotic path = /dev/sg/c0tw500110a0009485aal1
EMM Server = dcd-bjgglc-logcdr
-
名詞介紹:
image: 鏡像:一個客戶端在一次備份中所有數據的集合。
storage unit: 存儲單元:保存備份的邏輯位置,可以是磁盤也可以是磁帶。
volume: 卷: 每一個磁帶一個編號,稱為一個卷。
volume: 卷池:一組卷的集合,在備份時需要指明卷池,netbackup會自動維護卷池中的所有卷。
backup policy: 備份策略:4方面:數據保存在哪個存儲單元,什么時段運行,備份哪些client的數據;
需要備份的數據的位置。 -
netbackup 進程維護
/usr/openv/netbackup/bin/bpps -a 查看netbackup 所有進程,也可以通過圖形界面查看Daemons狀態。
bp.kill_all 啟動netbackup (netbackup stop)
bp.start_all 停止netbackup (netbackup start)
jnbSA % 啟動netbackup圖形化界面.
- 磁帶維護
/usr/openv/netbackup/bin/goodies/available_media:
以root用戶運行,可以查看磁帶的狀態等等信息;
status: full,active,available,frozen,dbbackup.
當有磁帶frozen時,可以用:bpmedia -unfreeze -m A00006,對磁帶進行解frozen;
當磁帶反復frozen時,請檢查是否有壞,或是此磁帶是清洗帶。
過期磁帶: bpexpdate -m media_id -d 0 eg: bpexpdate -m NU06CU -d 0 使磁帶可重寫。
bpexpdate -backupid eel_0904219764 -d 0 刪除備份
bpexpdate: -m -d
bplist:
bplist -C dcd-bjgglc-rac03-vip -t 4 -l -R 4代表oracle
bplist --help
bpmedialist -l: 查看磁帶信息。
bplabel: 對磁帶進行label : 有三種方式 :quick erase; long erase; NBU label;
/usr/openv/netbackup/bin/admincmd/bplabel -erase -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -erase -l -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -m -d hcart -o -p NetBackup [-n drive_name | -u device_number] -host
對磁帶label 可以檢查,磁帶是否有問題,時間也很快。
/usr/openv/netbackup/bin/admincmd/bpdbjobs -report
/usr/openv/netbackup/bin/admincmd/bperror -U –problems 報告24小時內的問題。
/usr/openv/netbackup/bin/admincmd/bpgetconfig | more 獲得netbackup的配置信息。
/usr/openv/netbackup/bin/bpclntcmd -hn Client_A 測試到某client是否有問題。
磁帶的池:
netbackup : 默認掃描到的磁帶都放在此池;除clear帶。
none: 默認放清洗帶。
其他池可以手工建議:對一個策略建立一個池,從netbackup中找到數據帶,分配到相應的策略池中。
並可以對分配完成的磁帶進行label操作,可以檢查磁帶是否有問題。
6.管理維護:
bpadm 可以進行日常維護用,而不用jnbSA 的圖形化界面。
bpflist -d 2009-07-01 -e 2009-07-02 -policy dbbackup -client dcd-bjgglc-rac03-vip -U
這一句可能是最有用的。
bpps -a
bpdbjobs -report 執行結果的狀態問題: 0 :成功; 96: 沒有空閑磁帶可用。其他:
bpimage --help
bpflist --help
