5PB甚至更大的數據集怎么存儲 ?
1PB = 1024TB、1TB = 1024GB、1GB = 1024M
- 假設我們將數據塊的大小定義成256M,
- 那么5PB的數據集可以划分成20971520左右的數據塊,
- 這些數據塊可以均勻分布在1000台機器節點(每個節點假設空間為10TB上
一台機器死了怎么辦?
每個數據塊可以冗余存儲在2台機器上

分布式存儲特點:
- 數據分塊存儲在多台機器上
- 每一數據塊都可以冗余存儲在多台機器上,以提高數據塊的高可用性
這么多台機器節點與這么多個數據塊怎么管理呢?

分布式存儲集群: master/slave結構集群

