Proxmox VE + Ceph 超融合項目實戰(第八部分:OSD磁盤故障排查案例)


參考:https://blog.51cto.com/u_14742102/3499271

八、OSD磁盤故障排查案例

  • 第一步:Ceph的監控界面發現OSD掉線,但是並沒有產生告警

本項目在客戶現場穩定運行了半年,基本上沒有出現過故障,這次去客戶現場巡查,在Ceph的WEB UI監控界面中,發現了Ceph有一個OSD磁盤掉線了,如圖76所示。

圖76. OSD磁盤掉線

在圖76中,OSD總額是18(有18塊OSD磁盤),“在線”且是“進入”狀態的有17塊OSD磁盤,“掉線”且是“輸出”狀態的有1塊OSD磁盤。注意,這里的“進入”和“輸出”翻譯得不夠好,翻譯成“加載”和“卸載”還比這個要好一些。

令我不解的是,OSD磁盤掉線也算是一個不大不小的故障了吧,但是在Ceph的WEB UI監控界面的告警欄中,竟然沒有任何告警提示!Ceph的自帶監控系統缺乏必要的告警功能,不能滿足生產級的項目需求,難怪一些大廠在使用Ceph搭建分布式存儲時,都使用Zabbix進行監控。

  • 第二步:進一步排查,確認掉線的OSD磁盤

進一步直接從Ceph的OSD去查找掉線的OSD磁盤,最后發現在節點2上,Ceph有一個OSD.10的磁盤掉線了,如圖77和圖78所示。

圖77. WEB UI中的Ceph OSD狀態

圖78. 命令行中的Ceph OSD狀態

  • 第三步:一頓猛如虎操作,然並卵

在Ceph后台一頓命令操作,包括OSD.10的重啟、停止、啟動、加載、卸載之后,OSD.10仍然無法上線,又再操作一頓命令,然並卵,直接到機房去看吧,看看哪塊硬盤不亮了。

  • 第四步:在機房現場找到故障硬盤

到機房之后,發現節點2服務器上有一塊機械盤的燈不亮了,故障硬盤找到了,如圖79所示。

圖79. 節點2的機械硬盤燈不亮了

  • 第五步:物理拆卸進行檢查

將硬盤拆卸下來進行檢查,如圖80、圖81所示。經現場檢查,發現硬盤的兩個螺絲釘在松動,插槽里邊是干凈的,不知道是不是跟這螺絲松動有關。

圖80. 拆卸故障硬盤

圖81. 檢查故障硬盤

  • 第六步:重新插入硬盤,對故障OSD執行“啟動”、“輸入”操作

將硬盤松動的那兩個螺絲擰緊之后,重新將故障硬盤插入盤位中,然后執行“啟動”、“輸入”操作,然並卵,故障硬盤一直掉線中,如圖82所示。

圖82. 故障硬盤無法上線

  • 第七步:向服務器廠家報故障,廠家建議故障硬盤返廠檢測

折騰一陣子之后,故障硬盤始終無法上線,只好打電話給服務器硬件廠家報故障,廠家反饋白牌服務器的硬盤容易出問題,建議把故障硬盤拆卸下來,返廠進行檢測。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM