我们的生产环境 kubernetes 集群是用阿里云服务器自己搭建的高可用集群(详见之前的博文),这篇博文记录的是如何通过已有集群的1台 master 服务器的阿里云ECS镜像恢复出同样配置的新集群,kubernetes 版本是 1.17.0。 这台 master 服务器的主机名 ...
环境准备: 三台 master 宕掉两台或三台 在宕掉两台或三台 master 后集群已宕掉,worker 节点中的 pod 可以正常运行,这里考虑机器可以正常修复,并能正常启动。 这里模拟测试: 停掉 . . . , . . . 两台 master 机器 让 . . . 上的 etcd 正常工作 待 . . . , . . . 启动后,恢复整个集群 停掉 和 机器,使集群无法工作 在关闭之前集群 ...
2020-01-07 21:11 0 1136 推荐指数:
我们的生产环境 kubernetes 集群是用阿里云服务器自己搭建的高可用集群(详见之前的博文),这篇博文记录的是如何通过已有集群的1台 master 服务器的阿里云ECS镜像恢复出同样配置的新集群,kubernetes 版本是 1.17.0。 这台 master 服务器的主机名 ...
最近刚看完推荐书单中的一本书:《质量全面管控:从项目管理到容灾测试》,其中最后一章讲述的是灾难恢复和容灾测试相关的一些内容。 这篇博客,整理了有关灾难恢复的一些知识点,以及从其他资料中整理的一些内容,仅供参考。。。 关于灾难恢复 1、定义:灾难发生后,将生产平台恢复到正常运行的能力 ...
灾难恢复 etcd 被设计为能承受机器失败。etcd 集群自动从临时失败(例如,机器重启)中恢复,而且对于一个有 N 个成员的集群能容许 (N-1)/2 的持续失败。当一个成员持续失败时,不管是因为硬件失败或者磁盘损坏,它丢失到集群的访问。如果集群持续丢失超过 (N-1)/2 的成员 ...
以阿里云ACK集群为例进行说明: 备份 通过ack-etcd-backup-operator进行备份,这里对备份不做过多说明。 模拟故障 1停止ETCD服务 在3台master几点即etcd服务所在节点,将etcd服务关停 2 破坏数据 因为是模拟故障,所以先备份,然后在销毁数据 ...
注意:本教程适合bitbucket的灾难恢复或者服务迁移 前提条件已经使用bitbucket backup client 做了备份 环境说明 * centos 7* SQL Server 2012* Java 1.8* Bitbucket old edition ...
灾难恢复的衡量指标 RTO(Recovery Time Objective) RTO是指灾难发生后,从IT系统崩溃导致业务停顿开始,到IT系统完全恢复,业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。 RPO(Recovery ...
参考链接: K8S集群多master:Etcd v3备份与恢复 K8S集群单master:Kubernetes Etcd 数据备份与恢复 ETCD系列之一:简介:https://developer.aliyun.com/article/11035 ...
一、Etcd简介 Etcd是Kubernetes集群中的一个十分重要的组件,用于保存集群所有的网络配置和对象的状态信息。 整个kubernetes系统中一共有两个服务需要用到etcd用来协同和存储配置,分别是: 网络插件flannel、对于其它网络插件也需要用到etcd存储网络的配置 ...