Etcd took too long报错问题记录

本文转载自查看原文 2021-05-18 18:13 441 Kubernetes

昨天晚上收到公司内部临时讨论组的一个问题，业务出现不稳定，说是操作系统硬盘有问题。今天大致看了下这个问题。

该系统部署了kubernetes主节点，安装了etcd server。运行在公司私有云平台上，所在物理机是台利旧的服务器。所用磁盘存储为性能比较低下的NAS网络存储。

查看系统资源情况，cpu利用率和内存利用率均正常。磁盘io等待不稳定，且相对较高。有时会超过20%。

查看io进程，发现基本是etcd server进程。

etcd日志报错大量的超时日志。

通过查阅相关信息，在阿里云和亚马逊云均有人遇到这个问题。

Github上有相关issue：https://github.com/kubernetes/kubernetes/issues/70082

貌似运行在特定版本的etcd上问题不会浮现：https://github.com/etcd-io/etcd/issues/10610

还有一个比较近似的问题博客：https://www.qttc.net/522-etcd-warn-took-too-long.html

目前通常是解决方案是将etcd集群部署在SSD或者Nvme的固态硬盘上，以避免etcd server的磁盘io瓶颈。或者通过优化etcd读写。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。