DBA:這有一份對接NBU備份故障排除指南,請查收!


摘要:當前DWS支持NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。

本文分享自華為雲社區《DWS對接NBU備份故障排除指南》,作者: 唐伯虎點蚊香。

NetBackup是Veritas公司軟件產品,為各種平台提供完整而靈活的數據保護解決方案。這些平台包括Microsoft Windows、UNIX、Linux 等系統。利用NetBackup可以備份、歸檔和還原計算機上的文件、文件夾或目錄以及卷或分區。當前DWS支持NBU介質備份恢復,本文介紹DWS對接NBU備份故障排除方法。

部署方式

假如已有3節點DWS集群,Roach(DWS備份工具)將本節點的集群數據通過TCP發送到遠端NBU Media Server機器。每台NBU Media Server上面同時安裝NBU Client,並部署Roach client組件,后者接收集群內Roach進程發來的備份數據,不落盤方式通過XBSA接口轉發給本機的NBU Client,完成NBU備份。恢復流程也類似,只是數據流相反。

在DWS備份過程中,一般故障主要出自以下三處:

  • Roach agent: 即集群節點內,直接查看集群備份日志($GAUSSLOG/roach/)即可
  • Roach client: 此插件主要負責數據收發,日志路徑啟動時通過-l參數指定,進入該路徑查詢即可
  • NBU軟件端: 可通過下文定位方式排查故障

環境校驗

當進行NBU非侵入式備份時,考慮到集群備份過於重量,可以先通過指定小文件測試環境連通性,保證NBU配置

gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000 

注:

--media-destination為NBU策略名稱

--backup-key為任一指定時間戳即可

--media-server為任意一台部署了roach client插件的ip地址

--client-port為roach client開放的端口

--metadata-destination為上傳指定文件路徑,其中將測試上傳文件重名名為metadata.tar.gz,並放置在/home/Ruby目錄下,並非/home/Ruby/meta目錄下

如果能備份成功,則說明所連接的media server配置無問題,如果存在失敗,則NBU端配置有問題,需要按照后續說明尋求原因。

故障定義

故障排除的第一步是定義問題。在NBU系統的安裝、配置、運行過程中,出現了與正確預期不同的結果,即可認為是出現了故障;有時候,這要求我們知道正確的情況應該是什么樣的。

在NBU的交付和使用中常見的故障主要分為種:

一是軟件安裝和配置階段,比如軟件安裝不成功、對接不成功、某模塊功能不可用等等,這一階段的錯誤一般沒有具體的錯誤碼,需要結合交付人員的經驗和系統日志進行排錯,這種故障屬於一次性的故障,在排除之后再次出現的可能性很小;

二是在系統部署完成后,數據備份業務上線、備份和恢復任務執行時報錯,比如接入client失敗、存儲單元寫入數據失敗、找不到client服務器等等;這種故障console會提供錯誤碼(error code),維護人員可以根據錯誤進行初步的定位,這種故障屬於日常性的故障,和環境中多種因素有關,備份系統自身之外的業務環境發生細微的變化都有可能導致故障的出現。

故障排除過程

要排除問題,必須知道發生了什么錯誤。

錯誤消息通常是指出哪里出現故障的手段。所以,我們要做的第一件事就是查找錯誤消息。如果在界面上沒有看到錯誤消息,但仍懷疑有問題,請檢查報告和日志。NetBackup 提供了廣泛的報告和日志記錄工具,這些工具可提供錯誤消息,直接指出解決方案。日志還可顯示什么運行良好以及當發生問題時 NetBackup 正在執行什么操作。

綜上,NBU備份與恢復故障排除過程如下:

1、確認服務器和client運行的是受支持的操作系統或應用版本;具體信息參看NBU兼容性列表;

2、復現故障,獲取故障信息;獲取信息的渠道有錯誤碼、Job Details、日志等;

3、根據獲取的信息進行故障定位和排除;

故障排除方法

使用狀態碼

每一個備份和恢復任務都是一個activity,在activity monitor一欄中可以監控到它們。由任務監視看出該任務的ID、執行何種操作、狀態、返回值、Server和Client是誰、通過哪一個Policy和Schedule去執行的。

具體可顯示多長時間的任務,要看NetBackup全局屬性中的設置。每個任務有以下幾個狀態:

  • Queued 任務正在排隊
  • Active 任務正在執行
  • Done 任務執行完畢

在activity的執行過程中,每一個任務結果都對應着一個狀態代碼,0代表成功,非0代表故障。返回值是一個非常有用的參數,通過返回值,可以通過錯誤代碼查找手冊中建議的相關調整建議,這對於問題檢查和性能調整是非常有用的。頁面中獲取位置如下:

以下鏈接提供了NBU備份任務status code list:

根據獲取到的status code可以初步定位錯誤原因

使用Job details

與狀態碼類似,Job details與activity也是一對一;不同的是,Job details比狀態碼提供的信息更多,對於常見的故障,使用Job details可以完成故障的原因定位和排除。

雙擊一個activity,選擇detailed status,在status一欄即可獲取更多的細節信息。找到關鍵錯誤信息(通常是紅色字體或紅色字體的上下文),提煉出關鍵字,在google上搜索,互聯網上有大量的相同錯誤場景和解決辦法。

使用日志

以上使用狀態碼和Job details進行故障排除的辦法停留在初級階段,通常只對簡單故障有效;對於復雜問題,如果解決不了則需要搜集日志進行分析。

在NBU系統中,日志級別共分為6級,分別為0-5,以下為日志級別對應的要記錄的信息:

0:非常重要的少量診斷消息和調試消息

1:該級別增加詳細的診斷消息和調試消息

2:增加進度消息

3:增加提示性轉儲消息

4:增加功能進入和退出消息

5:最詳細的信息:記錄所有信息

日志等級調整方式如下:

1、console界面調整

2、vi /usr/openv/netbackup/bp.conf, 在末尾調加如下配置

VERBOSE = 5

NBU系統針對每一個進程都有一個獨立的目錄來存放,但是在默認情況下不創建,所有如果想要搜集這些日志,工程師需要手動創建這些目錄。目錄格式為/usr/openv/netbackup/logs/進程名;以bpcd程序為例,執行以下命令創建子目錄:

mkdir /usr/openv/netbackup/logs/bpcd

或者使用NBU提供的批量創建腳本,一鍵創建所有日志目錄,執行以下命令:

sh /usr/openv/netbackup/logs/mklogdir

在搜集日志時,NBU針對性地為每個進程創建一個日志子目錄,來實現進程級別的日志分析,那么我們需要先知道NBU常用的進程有哪些:

admin:管理命令。

bpbrm:NetBackup 備份和還原管理器。

bpcd:NetBackup client后台駐留程序或管理器。

bpdm:NetBackup 磁盤管理器。

bpdbm:NetBackup 數據庫管理器。此進程僅在主服務器上運行。

bprd:NetBackup 請求管理器,對客戶機和備份、恢復、歸檔等管理請求作出響應。

vnetd:Veritas 網絡后台駐留程序。

bpbackup:在UNIX client上,當用戶啟動備份時,此程序與主服務器上的bprd通信。

在獲取了日志之后,在各個文件中搜索fail、error、can not、freeze等關鍵字,進行故障原因定位

NBU常用維護命令

用命令行啟動netbackup服務進程

/usr/openv/netbackup/bin/bp.start_all

用命令行停止netbackup服務進程

/usr/openv/netbackup/bin/bp.kill_all

用命令行清除host緩存

/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 清除緩存
cd /usr/openv/var/host_cache/  # 清除臨時文件
rm –rf tmp
mkdir tmp
mv * tmp

用命令行檢測master和client連通性

/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname

若可以連通,返回結果類似如下:

NBU master server與NBU client 通信問題

在client和master server上互相telnet對方的備份管理平面IP的1556、1372、13782三個端口,確認client服務器與master server通信正常

netstat –an | grep 1556
netstat –an | grep 1372
netstat –an | grep 13782

檢查NBU服務及進程

/usr/openv/netbackup/bin/./bpps -x

Media server不是認證的主機

此為client上對media server的信任配置問題。在console上點擊host properties>client,找到故障客戶端,雙擊client,在彈出界面點擊servers一欄,在additional server配置中添加media server的主機名

存儲單元不可用

出現“存儲單元不可用”故障信息可能有以下幾種情況:

1、存儲單元已滿

2、此存儲單元上處於排隊狀態的備份任務過多

3、client與存儲單元歸屬的media server無法通信

想了解GuassDB(DWS)更多信息,歡迎微信搜索“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技,后台還可獲取眾多學習資料哦~

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM