八、OSD磁盤故障排查案例
- 第一步:Ceph的監控界面發現OSD掉線,但是並沒有產生告警
本項目在客戶現場穩定運行了半年,基本上沒有出現過故障,這次去客戶現場巡查,在Ceph的WEB UI監控界面中,發現了Ceph有一個OSD磁盤掉線了,如圖76所示。
圖76. OSD磁盤掉線
在圖76中,OSD總額是18(有18塊OSD磁盤),“在線”且是“進入”狀態的有17塊OSD磁盤,“掉線”且是“輸出”狀態的有1塊OSD磁盤。注意,這里的“進入”和“輸出”翻譯得不夠好,翻譯成“加載”和“卸載”還比這個要好一些。
令我不解的是,OSD磁盤掉線也算是一個不大不小的故障了吧,但是在Ceph的WEB UI監控界面的告警欄中,竟然沒有任何告警提示!Ceph的自帶監控系統缺乏必要的告警功能,不能滿足生產級的項目需求,難怪一些大廠在使用Ceph搭建分布式存儲時,都使用Zabbix進行監控。
- 第二步:進一步排查,確認掉線的OSD磁盤
進一步直接從Ceph的OSD去查找掉線的OSD磁盤,最后發現在節點2上,Ceph有一個OSD.10的磁盤掉線了,如圖77和圖78所示。
圖77. WEB UI中的Ceph OSD狀態
圖78. 命令行中的Ceph OSD狀態
- 第三步:一頓猛如虎操作,然並卵
在Ceph后台一頓命令操作,包括OSD.10的重啟、停止、啟動、加載、卸載之后,OSD.10仍然無法上線,又再操作一頓命令,然並卵,直接到機房去看吧,看看哪塊硬盤不亮了。
- 第四步:在機房現場找到故障硬盤
到機房之后,發現節點2服務器上有一塊機械盤的燈不亮了,故障硬盤找到了,如圖79所示。
圖79. 節點2的機械硬盤燈不亮了
- 第五步:物理拆卸進行檢查
將硬盤拆卸下來進行檢查,如圖80、圖81所示。經現場檢查,發現硬盤的兩個螺絲釘在松動,插槽里邊是干凈的,不知道是不是跟這螺絲松動有關。
圖80. 拆卸故障硬盤
圖81. 檢查故障硬盤
- 第六步:重新插入硬盤,對故障OSD執行“啟動”、“輸入”操作
將硬盤松動的那兩個螺絲擰緊之后,重新將故障硬盤插入盤位中,然后執行“啟動”、“輸入”操作,然並卵,故障硬盤一直掉線中,如圖82所示。
圖82. 故障硬盤無法上線
- 第七步:向服務器廠家報故障,廠家建議故障硬盤返廠檢測
折騰一陣子之后,故障硬盤始終無法上線,只好打電話給服務器硬件廠家報故障,廠家反饋白牌服務器的硬盤容易出問題,建議把故障硬盤拆卸下來,返廠進行檢測。