背景
現有vsphere5.5環境,300+ VM ,不少重要業務需要備份,之前部署了三個節點的VDP來備份這些VM,由於標准版VDP有存儲容量上的限制(好像可用3T),現在的備份任務只保存三天,正好測試備份產品,准備用測試產品備份現有VDP的備份計划,今天一看vcenter事件,vdp3告警,再往下看,兩三天的任務都沒正常備份了,坑以后再說,開始說故障處理。
故障發現
vcenter 任務事件告警信息
檢查點過期?馬上看前幾天的事件,發現近幾天的備份都未成功,
登錄vsphere-web-client 看看vdp上的事件(慢)
VDP的報告截圖
第一反應,完整性檢查,但是這不應該需要人員干預阿,But,看以用容量, 2% 再看下最后成功備份的日期,備份保留時間只有三天,第一反應是三天備份失敗,備份都被刪除了,但是這不科學的阿,
這里說下,最好的處理辦法是現在重新部署一個VDP來接管之前的備份任務。
這里抱着試試看的心態來搞點事情,(結果通宵了- -! )
順便證明一波國內某知名搜索引擎有多沒用
使用一波搜索引擎,給的答案簡直就是所問非所答,只有有關鍵字就往上靠,搜vdp故障竟讓能搜出安裝vcenter的文檔,(呵呵呵)
還有什么vmsky阿,太不活躍,看帖子跟學歷史似的,
gg一波,
處理思路和流程
下面說下我處理的思路和流程
- 開始新的備份(反正也沒備份集了,這最簡單,)
- 報錯說完整性檢查狀態過時,那就檢查一波完整性,那么問題來了,我都沒數據了 完整性檢查毛線
一步一步來
- 打開web-client ,備份試試,VDP龜速,等一年 終於出了連接備份
- 點了,等着
- 報錯了, 時間不同步,(這里說下,並不是VDP的始終不准確,而是vcenter的同步頻率周期太長,)這就去同步
- 繼續等
- 等可以點備份了,備份試下,
- 很好,不讓備份,報錯內容“vdp應用裝置處於一下狀態時無法備份 Admin“
- VDP狀態為Admin時不讓開始備份任務,
- 抱着試試看的心態,我愚蠢的去完整性檢查
- 這回厲害了,等半小時報錯,這個故障現象一點信息量都沒有(“暫時無法檢查,請稍后再試”)
- 這里本菜雞懵逼了,開啟搜索模式,這里安利一個比官方kb 國內某論壇強一萬倍的Communities(https://communities.vmware.com)
首先登陸vdp的shell 先查看下服務的狀態,步驟如下:
dpnctl status
輸出如下
Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
dpnctl: INFO: gsan status: degraded
dpnctl: INFO: MCS status: up.
dpnctl: INFO: emt status: up.
dpnctl: INFO: Backup scheduler status: up.
dpnctl: INFO: axionfs status: down.
dpnctl: INFO: Maintenance windows scheduler status: enabled.
dpnctl: INFO: Unattended startup status: enabled.
dpnctl: INFO: avinstaller status: up.
dpnctl: INFO: [see log file "/usr/local/avamar/var/log/dpnctl.log"]
這里看到gsan狀態是degraded 這個應該就是狀態一直為admin的原因吧
重啟下這個服務,然后啟動所有服務。
dpnctl stop gsan
dpnctl start all
再看狀態為up了,而且我一直看着web-client 突然看到已用容量為90%多,(可能是幻覺吧)
服務狀態對了,我再去完整性檢查試下,點完之后又是等
這時候在看下服務的狀態,又變回去了,我懵了,看着這些VDP報告,估計手動備份肯定也是要gg的
我去看log, /var/log/message 沒有什么有價值的信息,
mail 也沒什么信息,
/usr/local/avamar/var/log/ 下的日志,也沒什么有用的信息
順手執行了條 df -lh (不是rm -rf / , chmod -R 000 /)
數據盤全滿
那么問題來了,為什么在WEB 上沒有顯示出來了,而且已用空間2% 備份點也一個都沒有,
現在的思路
- vdp3與vcenter的認證出了問題,
- vdp3的數據過大導致顯示為0
- BUG
現在解決這個問題是矛盾的,
首先,正常來如果我的data01 data02 data03 沒空間, 刪除步驟或者清理步驟,應該是登錄web-client 然后完整性檢查,或者是去web上刪除備份點,
我這么直接rm了不知道ok不ok,
查找kb和社區,給出的答案就是在shell下強制檢查,我無法檢查,報錯,(有可能是空間不夠我做整合或者檢查的)
還有解決辦法是聯系技術支持,
好吧不糾結了, 就這樣吧
一會兒還要上班呢,
明天來決定是rm 還是聯系技術支持來搞,還是直接重新部署vdp、
睡了
August 4, 2017 2:53 AM