某天突然ceph發出警告提示daemons have recently crashed,而且數目在不斷增加,然並沒有找到相關的錯誤目志。官方文擋有提示:一個或多個Ceph守護進程最近崩潰可能是軟件或硬件(例如,磁盤故障)導致
解決辦法
1、進入tool box容器
kubectl -n rook-ceph exec -it $(kubectl -n rook-ceph get pod -l "app=rook-ceph-tools" -o jsonpath='{.items[0].metadata.name}') bash
2、查詢最新crashed信息
ceph crash ls-new
3、根據crash id查詢異常詳細
ceph crash info 2020-11-04T06:52:21.400120Z_b05699eb-0973-457b-8409-3f3322998685
已經可以看到錯誤信息了,但是只能通過kernel log查詢問題了。
4、登錄osd.2節點服務器,查詢kernel log
dmesg
好吧,一堆飄紅,基本上可以確認是硬盤問題了,做磁盤掃描壞道處理或換硬盤吧。
5、將crash清空,恢復ceph群集狀態
#批量清除crash
ceph crash archive-all
#也可以根據id清除單個crash
ceph crash archive <crash-id>