VERITA Netbackup日常巡檢詳細說明

本文轉載自查看原文 2018-08-03 21:03 3503 100 - Linux | 系統專題/ Netbackup

VERITA備份日常監控

一．相關檢查方法、命令

1.1 啟動NBU的圖形管理界面：
/usr/openv/netbackup/bin/jnbSA &
1.2字符界面命令：
1.2.1catlog 日志備份時間
bpdbjobs |grep -i cata|grep " 0 " |head -1|awk '{print "/usr/openv/netbackup/bin/admincmd/bpdbjobs -all_columns -jobid ",$1}'
1.2.2文件系統使用率
df -h
1.2.3空白磁帶數目是否充足
available_media |grep -i tld |grep -i ava|wc -l
1.2.4最近失敗的200條作業，備份時間過長的也需要注意
bpdbjobs |grep -v " 0 " |head -200
1.2.6驅動器狀態
vmoprcmd -d

二．日常檢查流程

2.1確認VERITAS NBU進程狀態
2.2確認備份任務狀態
2.3確認磁帶、磁帶機的工作狀態
2.4確認文件系統狀態

2.1檢查NBU進程狀態：

需要每天監控activity monitor，確認在備份服務器上運行的進程有：avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
如果前四個進程avrd、vmd、tldd、ltid有一個沒有運行，則備份系統工作不正常。
簡單的處理方法：重新啟動NBU服務器進程
方法如下：
a)退出NBU的java管理界面，以root身份在命令行狀態下輸入：netbackup stop
b)使用bpps –a檢查上述進程的狀態
c)如果進程沒有被kill干凈，繼續執行netbackup stop命令。
d)如果無法結束所有的進程，需要使用bp.kill_all來進行終結。
e)當使用bpps –a看到沒有NBU的進程輸出時，表明所有的NBU進程已經結束。使用命令：netbackup start啟動NBU進程，並用bpps –a確認。
f)如果問題依然存在，請與廠家聯系檢查VERITAS工作狀態。

2.2檢查備份任務狀態。

需要每天監控activity monitor，觀察已經發生備份的任務狀態返回值，返回值為0表明備份成功；如果返回值不為0，表明備份失敗。對於數據庫Archivelog的備份，由於備份的頻率目前設置為每一小時一次，因此如果在下面的備份作業中，如果Archivelog的備份成功，可以忽略上面錯誤的備份。
典型的備份錯誤有：

a)
Archivelog備份返回值為1，而且后續的備份均返回1。
通常情況，需要進行Oracle 數據庫的Archivelog同步。

Oracle數據庫Archivelog同步的方法為：
以Oracle數據庫用戶登錄到Oracle數據庫服務上，通過RMAN來運行下面的命令：
$ su – oracle
$ rman
RMAN> connect target /
RMAN> change archivelog all validate;
RMAN> exit

b)
備份作業返回值為41、54。
檢查服務器網絡工作狀態：
首先找到備份失敗的服務器IP地址，確認IP地址可以ping通。
使用telnet工具，進行如下操作：
telnet 服務器IP地址 13782
如果返回信息如下，表明VERITAS NBU通信正常。
Trying...
Connected to 服務器IP地址.
Escape character is '^]'.
如果系統直接返回到命令行狀態，請檢查問題服務器的service和inetd設置，確保bpcd進程存在。
並使用如下命令檢查bpcd的工作狀態：
netstat |grep bpcd

c)
備份作業返回96、219。
請檢查磁帶機、磁帶的工作狀態

2.3檢查磁帶和磁帶機狀態：

磁帶機和磁帶常見的錯誤為96、219，需要確認磁帶機狀態是否up，磁帶庫是否閃紅燈，使用bpmedialist命令查看是否磁帶已經寫滿或者處於frozen狀態，磁帶是否卡在了磁帶機里。
如果磁帶顯示frozen，可以使用bpmedia –unfreeze –m labelid來清除此狀態，如果磁帶反復顯示frozen，可能磁帶壞，請與廠家聯系磁盤檢查。

補充：可以在java界面中選擇“Media and Device Management”來查看現在media分配的情況。
觀察磁帶機工作狀態的方式有2種：Java GUI界面和命令行。

a)
Java GUI界面方式：
在Java GUI界面下，可以在Media and Device ManagementàDevice Monitor選項中，觀察到磁帶機的狀態。例如磁帶機正在使用中、磁帶機DOWN、磁帶機空閑等。

b)
命令行方式：
使用命令行方式觀察磁帶機的狀態，相關的命令有vmdareq、vmoprcmd。

如果觀察到磁帶機DOWN，建議先檢查是否有卡帶現象。確定沒有卡帶現象后，可以做簡單的磁帶機UP操作。磁帶機UP操作可以通過上面所述的Java GUI界面和命令行方式來執行。命令行方式舉例如下：
vmoprcmd –h hostID –up driveID
其中，hostID是SSO服務器名稱，driveID是磁帶機的序號，目前備份系統中2台磁帶機的序號取值為0和1。

經過簡單UP后，如果磁帶機仍然出現DOWN現象，請與廠家聯系解決。

2.4檢查文件系統狀態

在備份服務器和其它服務器上使用如下命令
df –k
確認文件系統有可以使用的空間。文件系統如果寫滿，備份系統將工作不正常。

備注：
如果經過了很長時間（如7,8個小時）一個備份任務一直處於active或者queued狀態，同時顯示此任務的字節數沒有增長，需要把此任務kill掉。因為這樣會阻止下一個任務的執行。

三NBU常用的命令

在命令提示符下輸入available_media，查看當前磁帶使用情況
在命令提示符下輸入bpmedialist命令查看當前磁帶使用情況及是否凍結
在命令提示符號下輸入bpexpdate –m a00001 –d 0來使磁帶過期
在命令提示符號下輸入bpmedia –unfreeze –m a00001來使磁帶解除凍結狀態
在命令提示符號下輸入vmquery –m a00001來查看磁帶的歸屬情況
在命令提示符號下輸入vmquery –deassignbyid a00001 4 0來取消磁帶的分配日期
在命令提示符號下輸入bprecover –l a00001 –d hcart來查看catalog磁帶中的內容
在命令提示符號下輸入bprecover –r a00001 –d hcart來恢復catalog
在命令提示符號下輸入bpexpdate –backupid wbs_1039674374 –d 0來刪除一個備份影像，其中wbs_1039674374是backupid，可以通過report中的Images on Media報告來查看backupid
如何收集NBU備份服務器的相關信息
查看並導出所有備份策略內容到c:bppllist1.txt：
C:Program FilesVERITASNetBackupbinadmincmd>bppllist -allpolicies -L -verbose >c:bppllist1.txt
列出當前存儲單元並導出內容到c:bpstulist1.txt：
C:Program FilesVERITASNetBackupbinadmincmd>bpstulist -L -verbose >c:bpstulist1.txt
查看磁帶使用情況並導出內容到c:available_media.txt：
C:Program FilesVERITASNetBackupbingoodies>available_media >c:available_media.txt
查看磁帶歸屬情況：
顯示所有卷並導出內容到c:vmquery.txt：
C:Program FilesVERITASVolmgrbin>vmquery -a >c:vmquery.txt
列出卷池並導出內容到c:vmpool.txt：
C:Program FilesVERITASVolmgrbin>vmpool -listall >c:vmpool.txt
列出license導出內容到c:nbulicense.txt：
C:Program FilesVERITASNetBackupbinadmincmd>bpminlicense -list_keys> c:nbulicense.txt
其它信息請用nbsupport170工具收集。方法是解壓縮nbsupport170
.zip到備份服務器上某個臨時文件夾，運行nbsupport.exe，然后在當前文件夾下的output中會生成一個.cab打包文件。所有與備份服務器運行相關的信息文件全在里面。
16、bpexpdate過期磁帶，報”requested media id is in use”錯誤解決辦法

如果你確認這個media並沒有在使用，可以手工釋放這個media占用的資源

首先使用/usr/openv/netbackup/bin/admincmd/nbrbutil -dump命令得到磁帶占用資源的id

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump

Allocation Requests

(AllocationRequestSeq )

MDS allocations in EMM:

    MdsAllocation: allocationKey=91666 jobType=1 mediaKey=4000261 mediaId=YZ5350 driveKey=2000012 driveName=HP.ULTRIUM4-SCSI.004 drivePath=/dev/nst0 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1

    MdsAllocation: allocationKey=91667 jobType=1 mediaKey=4000264 mediaId=YZ5353 driveKey=2000008 driveName=HP.ULTRIUM4-SCSI.000 drivePath=/dev/nst5 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1

nbumaster:~ #

然后使用/usr/openv/netbackup/bin/admincmd/nbrbutil –releaseMDS 即上面的“allocationKey=”后面相應的數值，來釋放資源

這樣我們便能成功執行bpexpdate命令

17、查詢目前有哪些磁帶正在被哪個驅動器調用，以及正在運行哪些備份任務

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump

18、列出所有的job的明細

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs

將bpdbjobs輸出到/tmp/bpdbjobs.txt文件中

bpdbjobs -file /tmp/bpdbjobs.txt

列出所有作業的摘要,可查看目前正處於ACTIVE的任務有多少個

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs -summary

MASTER SERVER QUEUED REQUEUED ACTIVE SUCCESS PARTSUCC FAILED INCOMP SUSP WAITING_RETRY TOTAL

nbumaster 0 0 5 1320 0 43 0 0 0 1368

nbsupport170工具可以向veritas技術支持中心獲取。

Solaris下：
/usr/openv/volmgr/bin/sgscan changer 查看本機所有Robot設備；
/usr/openv/volmgr/bin/sgscan tape 查看本機所有的磁帶驅動器。
/usr/openv/volmgr/bin/sgscan disk 查看本機所有的disk,包括本地磁盤和共享磁盤。
robot及磁帶驅動器配置：
/usr/openv/volmgr/bin/tpconfig 提供add ,delete,list NBU可以識別並使用的物理設備。
/usr/openv/volmgr/bin/stopltid
/usr/openv/volmgr/bin/stopltid <參數> :當修改配置后請重啟：ltid（設備管理進程）。
tpconfig: 可以進入文本菜單。先配置robot,再配置磁帶驅動器。
/usr/openv/volmgr/bin/tpconfig -d 可以查看磁帶驅動器及robot細節情況。
當配置完成之后，一定要重啟ltid進程。
robtest

tpconfig -d
Id DriveName Type Residence
Drive Path Status

0 HP.ULTRIUM3-SCSI.000 hcart3 TLD(0) DRIVE=1
/dev/rmt/0cbn UP
/dev/rmt/1cbn UP

Currently defined robotics are:
TLD(0) robotic path = /dev/sg/c0tw500110a0009485aal1

EMM Server = dcd-bjgglc-logcdr

名詞介紹：
image: 鏡像：一個客戶端在一次備份中所有數據的集合。
storage unit: 存儲單元：保存備份的邏輯位置，可以是磁盤也可以是磁帶。
volume: 卷：每一個磁帶一個編號，稱為一個卷。
volume: 卷池：一組卷的集合，在備份時需要指明卷池，netbackup會自動維護卷池中的所有卷。
backup policy: 備份策略：4方面：數據保存在哪個存儲單元，什么時段運行，備份哪些client的數據；
需要備份的數據的位置。
netbackup 進程維護
/usr/openv/netbackup/bin/bpps -a 查看netbackup 所有進程,也可以通過圖形界面查看Daemons狀態。
bp.kill_all 啟動netbackup （netbackup stop)
bp.start_all 停止netbackup (netbackup start)

jnbSA % 啟動netbackup圖形化界面.

磁帶維護
/usr/openv/netbackup/bin/goodies/available_media：
以root用戶運行，可以查看磁帶的狀態等等信息；
status: full,active,available,frozen,dbbackup.
當有磁帶frozen時，可以用：bpmedia -unfreeze -m A00006,對磁帶進行解frozen;
當磁帶反復frozen時，請檢查是否有壞，或是此磁帶是清洗帶。

過期磁帶： bpexpdate -m media_id -d 0 eg: bpexpdate -m NU06CU -d 0 使磁帶可重寫。
bpexpdate -backupid eel_0904219764 -d 0 刪除備份

bpexpdate: -m -d

bplist:

bplist -C dcd-bjgglc-rac03-vip -t 4 -l -R 4代表oracle

bplist --help

bpmedialist -l: 查看磁帶信息。

bplabel: 對磁帶進行label ：有三種方式：quick erase; long erase; NBU label;
/usr/openv/netbackup/bin/admincmd/bplabel -erase -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -erase -l -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -m -d hcart -o -p NetBackup [-n drive_name | -u device_number] -host
對磁帶label 可以檢查，磁帶是否有問題，時間也很快。

/usr/openv/netbackup/bin/admincmd/bpdbjobs -report
/usr/openv/netbackup/bin/admincmd/bperror -U –problems 報告24小時內的問題。
/usr/openv/netbackup/bin/admincmd/bpgetconfig | more 獲得netbackup的配置信息。
/usr/openv/netbackup/bin/bpclntcmd -hn Client_A 測試到某client是否有問題。

磁帶的池：
netbackup : 默認掃描到的磁帶都放在此池；除clear帶。
none: 默認放清洗帶。
其他池可以手工建議：對一個策略建立一個池，從netbackup中找到數據帶，分配到相應的策略池中。
並可以對分配完成的磁帶進行label操作，可以檢查磁帶是否有問題。

6.管理維護：
bpadm 可以進行日常維護用，而不用jnbSA 的圖形化界面。

bpflist -d 2009-07-01 -e 2009-07-02 -policy dbbackup -client dcd-bjgglc-rac03-vip -U

這一句可能是最有用的。

bpps -a

bpdbjobs -report 執行結果的狀態問題： 0 ：成功； 96：沒有空閑磁帶可用。其他：

bpimage --help

bpflist --help

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 datatable 使用詳細說明 strlen函數的詳細說明 statsvn使用詳細說明 nginx日志詳細說明 LibSVM學習詳細說明 DEBUG命令詳細說明 rsync參數詳細說明 QTimer類詳細說明 cpio用法詳細說明 UID和GID（詳細說明）