最近建设新机房,趁项目时间空余较多,正好系统的测试一下CEPH集群性能随OSD数目的变化情况, 新ceph集群测试结果如下: 1)4k随机读在3/6/9osd host下的性能差不多,吞吐量约50~60MB/s,IOPS约为14000,延时约4ms;osd数增加,上涨幅度很小 2)512k ...
问题背景 当前环境 集群信息: 一个 个mon节点, 个osd节点的ceph集群。 每个osd节点上有 块 . T的数据盘和 块ssd的journal盘。osd磁盘做RAID ,WB模式。 ceph版本:Jewel 问题现象 ceph状态告警,告警内容是osd节点node 上的osd. down。 通过下面命令定位故障osd ceph s ceph osd tree grep down osd. ...
2020-05-06 11:06 0 1363 推荐指数:
最近建设新机房,趁项目时间空余较多,正好系统的测试一下CEPH集群性能随OSD数目的变化情况, 新ceph集群测试结果如下: 1)4k随机读在3/6/9osd host下的性能差不多,吞吐量约50~60MB/s,IOPS约为14000,延时约4ms;osd数增加,上涨幅度很小 2)512k ...
1.3 ceph osd数据重新分布 1.3.1 临时关闭reb ...
故障描述: 节前将所有ceph节点全部关机,节后开机后发现 osd 全部down ceph -s发现 HEALTH_WARN 320 pgs stale; 320 pgs stuck stale; 3/3 in osds are down 查询很多资料都不知道如何处理,只能删除 ...
添加或删除osd均在ceph部署节点的cent用户下的ceph目录进行。 1. 添加osd 当前ceph集群中有如下osd,现在准备新添加osd: (1)选择一个osd节点,添加好新的硬盘: (2)显示osd节点中的硬盘,并重置新的osd硬盘: 列出节点磁盘 ...
1- 更换故障OSD 1.1- 故障现象 1.2- 临时解决办法 执行 ceph pg repair 解决,此时由于磁盘坏道造成不可读的数据会拷贝到其他位置。但这不能从根本上解决问题,磁盘损坏会持续报出类似的错误。 1.3- 获取磁盘错误信息 定位磁盘 ...
正常状态: 故障状态: 实施更换步骤: (1)关闭ceph集群数据迁移: osd硬盘故障,状态变为down。在经过mod osd down out interval 设定的时间间隔后,ceph将其 ...
1 OSD扩容/缩容 1.1 横向扩容(scale out) 横向扩容:简单的理解,就是增加节点,通过增加节点来达到增加容量的目的 1、部署环境,参见《02 Ceph集群规划及部署mimic》,按照所有标注node节点的执行,包括安装环境准备,用户创建,配置源,安装ceph ...
问题现象: ceph告警问题:”too many PGs per OSD” 问题原因: 因为最近做了一些踢OSD盘的变更,导致ceph集群OSD数量变少了,所以每个OSD上的PG数量过多,导致ceph health_warn ...