etcd报错failed to send out heartbeat on time

本文转载自查看原文 2020-03-30 18:54 1259 kubernetes/ failed to send out heartbeat on time

etcd服务出现了以下报错
Mar 23 05:50:44 localhost etcd: failed to send out heartbeat on time (exceeded the 100ms timeout for 2.951502ms)

心跳检测报错主要与以下因素有关（磁盘速度、cpu性能和网络不稳定问题）：

第一，etcd使用了raft算法，leader会定时地给每个follower发送心跳，如果leader连续两个心跳时间没有给follower发送心跳，etcd会打印这个log以给出告警。通常情况下这个issue是disk运行过慢导致的，leader一般会在心跳包里附带一些metadata，leader需要先把这些数据固化到磁盘上，然后才能发送。写磁盘过程可能要与其他应用竞争，或者因为磁盘是一个虚拟的或者是SATA类型的导致运行过慢，此时只有更好更快磁盘硬件才能解决问题。etcd暴露给Prometheus的metrics指标wal fsync

duration_seconds就显示了wal日志的平均花费时间，通常这个指标应低于10ms。

第二种原因就是CPU计算能力不足。如果是通过监控系统发现CPU利用率确实很高，就应该把etcd移到更好的机器上，然后通过cgroups保证etcd进程独享某些核的计算能力，或者提高etcd的priority。

第三种原因就可能是网速过慢。如果Prometheus显示是网络服务质量不行，譬如延迟太高或者丢包率过高，那就把etcd移到网络不拥堵的情况下就能解决问题。但是如果etcd是跨机房部署的，长延迟就不可避免了，那就需要根据机房间的RTT调整heartbeat-interval，而参数election-timeout则至少是heartbeat-interval的5倍。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 etcd报错：failed to send out heartbeat on time Postman 报错 504 Gateway Time-out 报错解决: fatal: Out of memory, malloc failed pycharm中报错：Error: failed to send plot to http://127.0.0.1:63342 报错sign_and_send_pubkey: signing failed: agent refused operation Flink Heartbeat of TaskManager和Heartbeat of ResourceManager timed out问题 Flink Heartbeat of TaskManager和Heartbeat of ResourceManager timed out问题接口请求报错 504 Gateway Time-out Nginx 报错 504 Gateway Time-out 的解决方法 Java连接FTP成功，但是上传是失败，报错：Connected time out