刪除osd后引起的CEPHADM_FAILED_DAEMON錯誤


   

   

CEPHADM_FAILED_DAEMON: 1 failed cephadm daemon(s)

   

   

圖形界面下 mark out 並delete一塊硬盤后,系統健康狀態顯示daemon守護進程ERROR狀態

   

Mark OSD flags (out, in, down, lost, …)

Note: osd must be marked down before marking lost.

   

   

   

沒有勾選保留OSD ID,新加入的硬盤會使用到舊硬盤的OSD ID

   

   

   

如果是用命令行,操作如下:

   

將節點狀態標記為out (節點已經不再提供服務)

ceph osd out osd.3

   

從crush中移除節點(不刪除會影響到當前主機的host crush weight)

ceph osd crush remove osd.3

   

刪除節點

ceph osd rm osd.3

   

   

刪除節點認證(不刪除編號會占住)

ceph auth ls

ceph auth del osd.3

   

   

   

列出所有daemons,確認哪個有異常

ceph orch ps

   

   

ceph orch daemon stop osd.3

重啟節點后后還是會自動啟動daemon進程

   

強制刪除

ceph orch daemon rm osd.3 --force

    

重啟后,系統Health OK

   

 

 

可能出現的異常:

前面因沒有保留OSD ID,新加入的硬盤會使用此ID,如果此時刪除錯誤的daemon,會連同將使用相同OSD ID的正常daemon一起刪除,引起所在節點啟動daemon時出錯

   

   

   

   

   

ssh-copy-id -f -i ceph.pub root@ceph-mon2

重新復制ceph.pub並重啟ceph-mon2,至此health OK

   

   

   

   

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM