本文轉載自查看原文 2020-11-09 14:18 782

某天突然ceph發出警告提示daemons have recently crashed，而且數目在不斷增加，然並沒有找到相關的錯誤目志。官方文擋有提示：一個或多個Ceph守護進程最近崩潰可能是軟件或硬件（例如，磁盤故障）導致

解決辦法

1、進入tool box容器

kubectl -n rook-ceph exec -it $(kubectl -n rook-ceph get pod -l "app=rook-ceph-tools" -o jsonpath='{.items[0].metadata.name}') bash

2、查詢最新crashed信息

ceph crash ls-new

3、根據crash id查詢異常詳細

ceph crash info 2020-11-04T06:52:21.400120Z_b05699eb-0973-457b-8409-3f3322998685

已經可以看到錯誤信息了，但是只能通過kernel log查詢問題了。

4、登錄osd.2節點服務器，查詢kernel log

dmesg

好吧，一堆飄紅，基本上可以確認是硬盤問題了，做磁盤掃描壞道處理或換硬盤吧。

5、將crash清空，恢復ceph群集狀態

#批量清除crash

ceph crash archive-all

#也可以根據id清除單個crash

ceph crash archive <crash-id>

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Rook搭建Ceph rook-ceph說明 Rook部署Ceph Kubernetes Rook + Ceph Rook Ceph OSD異常，格式化osd硬盤重新掛載 Rook Ceph OSD異常，格式化osd硬盤重新掛載 Kubernetes搭建RooK+Ceph Kubernetes存儲——rook-ceph kubernetes搭建rook-ceph Kubernetes 安裝Rook ceph 1.5