集群重啟某一主機下所有osd down解決辦法


標簽(空格分隔): ceph 運維 osd


問題描述:

掉電后,上電發現cluster中的主機node3下的所有osd都down掉了,通過命令重啟node3的ceph-osd服務,osd依然無法up;通過激活集群所有osd還是不行。

[root@node1 ~]# ceph osd tree
ID CLASS WEIGHT  TYPE NAME      STATUS REWEIGHT PRI-AFF 
-1       0.05878 root default                           
-3       0.01959     host node1                         
 0   hdd 0.00980         osd.0      up  1.00000 1.00000 
 3   hdd 0.00980         osd.3      up  1.00000 1.00000 
-5       0.01959     host node2                         
 1   hdd 0.00980         osd.1      up  1.00000 1.00000 
 4   hdd 0.00980         osd.4      up  1.00000 1.00000 
-7       0.01959     host node3                         
 2   hdd 0.00980         osd.2    down        0 1.00000 
 5   hdd 0.00980         osd.5    down        0 1.00000 

解決方法:

1. 刪除該主機中的所有osd

通過 刪除osd的shell腳本 的博客刪除主機下的所有down掉的osd

2. 重新創建該主機下的osd

通過admin節點執行下面命令重建osd:

# ceph-deploy osd create node3:/dev/sdb2 node3:/dev/sdc2 

3. 激活集群中所有osd

# ceph-deploy osd activate  node1:/dev/sdb1 node2:/dev/sdb1 node3:/dev/sdb2 node1:/dev/sdc1 node2:/dev/sdc1 node3:/dev/sdc2  

驗證osd是否up:

[root@node1 ~]# ceph osd tree
ID CLASS WEIGHT  TYPE NAME      STATUS REWEIGHT PRI-AFF 
-1       0.05878 root default                           
-3       0.01959     host node1                         
 0   hdd 0.00980         osd.0      up  1.00000 1.00000 
 3   hdd 0.00980         osd.3      up  1.00000 1.00000 
-5       0.01959     host node2                         
 1   hdd 0.00980         osd.1      up  1.00000 1.00000 
 4   hdd 0.00980         osd.4      up  1.00000 1.00000 
-7       0.01959     host node3                         
 2   hdd 0.00980         osd.2      up  1.00000 1.00000 
 5   hdd 0.00980         osd.5      up  1.00000 1.00000  

參考文檔:

http://www.cnblogs.com/boshen-hzb/p/6796604.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM