CEPHADM_FAILED_DAEMON: 1 failed cephadm daemon(s)
圖形界面下 mark out 並delete一塊硬盤后,系統健康狀態顯示daemon守護進程ERROR狀態
Mark OSD flags (out, in, down, lost, …)
Note: osd must be marked down before marking lost.
沒有勾選保留OSD ID,新加入的硬盤會使用到舊硬盤的OSD ID
如果是用命令行,操作如下:
將節點狀態標記為out (節點已經不再提供服務)
ceph osd out osd.3
從crush中移除節點(不刪除會影響到當前主機的host crush weight)
ceph osd crush remove osd.3
刪除節點
ceph osd rm osd.3
刪除節點認證(不刪除編號會占住)
ceph auth ls
ceph auth del osd.3
列出所有daemons,確認哪個有異常
ceph orch ps
ceph orch daemon stop osd.3
重啟節點后后還是會自動啟動daemon進程
強制刪除
ceph orch daemon rm osd.3 --force
重啟后,系統Health OK
可能出現的異常:
前面因沒有保留OSD ID,新加入的硬盤會使用此ID,如果此時刪除錯誤的daemon,會連同將使用相同OSD ID的正常daemon一起刪除,引起所在節點啟動daemon時出錯
ssh-copy-id -f -i ceph.pub root@ceph-mon2
重新復制ceph.pub並重啟ceph-mon2,至此health OK
