Etcd took too long报错问题记录


昨天晚上收到公司内部临时讨论组的一个问题,业务出现不稳定,说是操作系统硬盘有问题。今天大致看了下这个问题。

该系统部署了kubernetes主节点,安装了etcd server。运行在公司私有云平台上,所在物理机是台利旧的服务器。所用磁盘存储为性能比较低下的NAS网络存储。

查看系统资源情况,cpu利用率和内存利用率均正常。磁盘io等待不稳定,且相对较高。有时会超过20%。

查看io进程,发现基本是etcd server进程。

 etcd日志报错 大量的超时日志。

通过查阅相关信息,在阿里云和亚马逊云均有人遇到这个问题。

Github上有相关issue:https://github.com/kubernetes/kubernetes/issues/70082

貌似运行在特定版本的etcd上问题不会浮现:https://github.com/etcd-io/etcd/issues/10610

还有一个比较近似的问题博客:https://www.qttc.net/522-etcd-warn-took-too-long.html

目前通常是解决方案是将etcd集群部署在SSD或者Nvme的固态硬盘上,以避免etcd server的磁盘io瓶颈。或者通过优化etcd读写。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM