原文:【故障公告】突然猛增的巨量请求冲垮一共92核CPU的k8s集群

非常抱歉,今天下午 点左右开始,博客站点突然猛增的巨量请求让k s集群的节点服务器不堪重负,造成网站无法正常访问,由此给您带来麻烦,请您谅解。 当时k s集群一共 台node服务器, 台 核 G, 台 核 G, 台 核 G, 台 核 G,博客站点一共跑了 个pod,如果不是突然猛增的巨量请求,可以稳稳撑住。 但是今天下午的请求排山倒海,比昨天还要高 昨天GA统计的UV超过 万,其中有很多异常请求 ...

2021-11-16 17:17 77 6636 推荐指数:

查看详情

k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船

非常非常抱歉,新年上班第一天, 在今天阿里云上气候突变情况下,由于我们开船技术差,在今天 10:15~12:00 左右的访问高峰,我们竟然把船给开翻了,造成近2个小时整个博客站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解。 翻船经过如下。 翻船前的船只情况 博客站点正在使用的 k8s ...

Fri Jan 03 00:05:00 CST 2020 107 10590
K8S集群安装故障排查

问题1:kubeadm初始化安装K8S集群失败? 问题描述: W0601 16:17:29.317823 13912 strict.go:54] error unmarshaling configuration schema.GroupVersionKind{Group ...

Wed Jun 02 00:40:00 CST 2021 0 2555
故障公告K8s CofigMap 挂载问题引发网站故障

今天凌晨我们用阿里云服务器自建的 kubernetes 集群出现突发异常情况,博客站点(blog-web)与博客 web api(blog-api)的 pod 无法正常启动(CrashLoopBackOff)。 kubectl get pods -l app=blog-web ...

Wed Jan 27 20:12:00 CST 2021 6 2131
k8s 集群中的etcd故障解决

一次在k8s集群中创建实例发现etcd集群状态出现连接失败状况,导致创建实例失败。于是排查了一下原因。 问题来源 下面是etcd集群健康状态: [root@docker01 ~]# cd /opt/kubernetes/ssl/ [root@docker01 ssl]# /opt ...

Tue Mar 26 23:43:00 CST 2019 0 12193
k8s集群故障二:节点为NotReady状态

按照教程部署完k8s的各个节点后,获取节点信息时,可是发现只有作为master和同时作为node的节点状态才是正确的: 在node中查看日志: 网络问题导致,经过多次排查发现:因为是有k8s-master 主机直接迁移node需要的组件到另外的机器,所以在配置文件 ...

Sat Aug 01 02:27:00 CST 2020 0 2164
k8s 集群中的etcd故障解决

一次在k8s集群中创建实例发现etcd集群状态出现连接失败状况,导致创建实例失败。于是排查了一下原因。 问题来源 下面是etcd集群健康状态: 1 2 ...

Mon Mar 01 18:24:00 CST 2021 0 790
k8s集群中遇到etcd集群故障的排查思路

一次在k8s集群中创建实例发现etcd集群状态出现连接失败状况,导致创建实例失败。于是排查了一下原因。 问题来源 下面是etcd集群健康状态: 1 2 ...

Fri Jul 05 20:43:00 CST 2019 0 1230
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM