最近建設新機房,趁項目時間空余較多,正好系統的測試一下CEPH集群性能隨OSD數目的變化情況, 新ceph集群測試結果如下: 1)4k隨機讀在3/6/9osd host下的性能差不多,吞吐量約50~60MB/s,IOPS約為14000,延時約4ms;osd數增加,上漲幅度很小 2)512k ...
問題背景 當前環境 集群信息: 一個 個mon節點, 個osd節點的ceph集群。 每個osd節點上有 塊 . T的數據盤和 塊ssd的journal盤。osd磁盤做RAID ,WB模式。 ceph版本:Jewel 問題現象 ceph狀態告警,告警內容是osd節點node 上的osd. down。 通過下面命令定位故障osd ceph s ceph osd tree grep down osd. ...
2020-05-06 11:06 0 1363 推薦指數:
最近建設新機房,趁項目時間空余較多,正好系統的測試一下CEPH集群性能隨OSD數目的變化情況, 新ceph集群測試結果如下: 1)4k隨機讀在3/6/9osd host下的性能差不多,吞吐量約50~60MB/s,IOPS約為14000,延時約4ms;osd數增加,上漲幅度很小 2)512k ...
1.3 ceph osd數據重新分布 1.3.1 臨時關閉reb ...
故障描述: 節前將所有ceph節點全部關機,節后開機后發現 osd 全部down ceph -s發現 HEALTH_WARN 320 pgs stale; 320 pgs stuck stale; 3/3 in osds are down 查詢很多資料都不知道如何處理,只能刪除 ...
添加或刪除osd均在ceph部署節點的cent用戶下的ceph目錄進行。 1. 添加osd 當前ceph集群中有如下osd,現在准備新添加osd: (1)選擇一個osd節點,添加好新的硬盤: (2)顯示osd節點中的硬盤,並重置新的osd硬盤: 列出節點磁盤 ...
1- 更換故障OSD 1.1- 故障現象 1.2- 臨時解決辦法 執行 ceph pg repair 解決,此時由於磁盤壞道造成不可讀的數據會拷貝到其他位置。但這不能從根本上解決問題,磁盤損壞會持續報出類似的錯誤。 1.3- 獲取磁盤錯誤信息 定位磁盤 ...
正常狀態: 故障狀態: 實施更換步驟: (1)關閉ceph集群數據遷移: osd硬盤故障,狀態變為down。在經過mod osd down out interval 設定的時間間隔后,ceph將其 ...
1 OSD擴容/縮容 1.1 橫向擴容(scale out) 橫向擴容:簡單的理解,就是增加節點,通過增加節點來達到增加容量的目的 1、部署環境,參見《02 Ceph集群規划及部署mimic》,按照所有標注node節點的執行,包括安裝環境准備,用戶創建,配置源,安裝ceph ...
問題現象: ceph告警問題:”too many PGs per OSD” 問題原因: 因為最近做了一些踢OSD盤的變更,導致ceph集群OSD數量變少了,所以每個OSD上的PG數量過多,導致ceph health_warn ...