對ceph存儲集群(8台萬兆服務器)從以下幾個方面進行測試的結果
1、讀寫穩定性
無故障下的ceph集群性能完全滿足業務對磁盤性能的需求。
測試數據結果如下表1-1,1-2
2、業務穩定性
ceph集群出現節點脫離的故障狀態時,設置恢復QoS可以有效的保證業務正常運行無中斷。
測試數據結果如下表2-1
3、節點故障恢復時間
節點故障的恢復時間依據故障時間段內的新增數據的大小決定,若移除或添加一個11T的節點,並且不做恢復速度限制,那么數據恢復時間大約在6到8小時。
測試數據結果如下表3-1,3-2,4-1
4、對系統資源的使用情況
ceph底層ssd盤起緩存的作用,使用率是隨熱數據的上升與下沉而變化(測試階段最高達到70%);SATA盤隨着數據的不斷寫入使用率一直上升。
5台業務服務器在進行8k塊大小連續2小時並行讀寫操作時,集群的cpu使用率會升高到50%-80%,內存使用率46.61%基本無波動。
5台業務服務器在進行8k塊大小連續2小時並行讀寫操作時,業務服務器資源內存消耗瞬間增長到7G(總內存8G)隨后下降,CPU使用率升高到15%-25%。
測試圖標如下5-1,5-2,5-3,5-4
Ceph分布式存儲的物理和業務空間使用如下:
裸物理空間349.3TB 已使用的裸物理空間94.8TB
三個副本的總空間116.44T 三個副本已使用的空間31.58TB
ceph的數據存儲目前基本都在15%以內,存儲超過70%時,業務的性能會少量低下。
1、穩定性(ceph集群無故障)
一個業務的性能表1-1:
|
|
bw(MB/s) |
iops(每秒的讀寫次數) |
| randread(磁盤分區未對齊) |
109 |
14032 |
| randwrite(磁盤分區未對齊) |
75 |
9335 |
| randwrite(磁盤分區對齊) |
79.71 |
10202 |
5個業務的性能表1-2:
|
|
bw(MB/s)x5 |
iops(每秒的讀寫次數)x5 |
| randread(磁盤分區未對齊) |
108 |
13832 |
| randwrite(磁盤分區未對齊) |
41 |
5190 |
| randwrite(磁盤分區對齊) |
50.45 |
6457 |
2、業務穩定性(隨機寫數據為例,數據恢復速度限制,一個業務的性能測試)表2-1
|
|
bw(MB/s) |
iops(每秒的讀寫次數) |
相比正常測試值下降百分比 |
| 一個節點脫離集群 |
68 |
8442 |
10%-20% |
| 兩個節點脫離集群 |
67 |
8281 |
10%-20% |
3、節點故障恢復時間(無業務運行狀態下,一個業務性能測試)
表3-1
|
|
讀寫速度范圍(MB/s) |
數據量(T) |
恢復時間(hour) |
| 移除一個節點 |
1100-2200 |
11 |
6 |
| 移除兩個節點 |
1100-2200 |
22 |
12 |
表3-2
| 添加移除的一個節點 |
300-500 |
11 |
8 |
| 添加移除的兩個節點 |
300-500 |
22 |
13 |
4、關閉數據恢復限制的狀態下,5個業務的性能
表4-1
|
|
bw(MB/s)x5 |
iops(每秒的讀寫次數)x5 |
| randread |
15.4 |
1969 |
| randwrite |
7.68 |
983 |
5、系統資源使用情況
Ceph集群內存變化圖5-1:

Ceph集群CPU變化圖5-2:

業務服務器CPU變化圖5-3:

業務服務器內存變化圖5-4:

6、數據庫備份運行狀態下,磁盤分區對業務性能的影響
一個業務的性能2-1:
|
|
bw(MB/s) |
iops(每秒的讀寫次數) |
| randwrite(磁盤分區未對齊) |
59.12 |
7567 |
| randwrite(磁盤分區對齊) |
77.06 |
9863 |
5個業務的性能2-2:
|
|
bw(MB/s)x5 |
iops(每秒的讀寫次數)x5 |
| randwrite(磁盤分區未對齊) |
41.37 |
5295 |
| randwrite(磁盤分區對齊) |
50 |
6400 |
