Rook Ceph出現daemons have recently crashed異常


某天突然ceph發出警告提示daemons have recently crashed,而且數目在不斷增加,然並沒有找到相關的錯誤目志。官方文擋有提示:一個或多個Ceph守護進程最近崩潰可能是軟件或硬件(例如,磁盤故障)導致

解決辦法

1、進入tool box容器

kubectl -n rook-ceph exec -it $(kubectl -n rook-ceph get pod -l "app=rook-ceph-tools" -o jsonpath='{.items[0].metadata.name}') bash

2、查詢最新crashed信息

ceph crash ls-new

image

3、根據crash id查詢異常詳細

ceph crash info 2020-11-04T06:52:21.400120Z_b05699eb-0973-457b-8409-3f3322998685

image

已經可以看到錯誤信息了,但是只能通過kernel log查詢問題了。

4、登錄osd.2節點服務器,查詢kernel log

dmesg

image

好吧,一堆飄紅,基本上可以確認是硬盤問題了,做磁盤掃描壞道處理或換硬盤吧。

5、將crash清空,恢復ceph群集狀態

#批量清除crash
ceph crash archive-all
#也可以根據id清除單個crash
ceph crash archive <crash-id>


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM