flink反压的监控

本文转载自查看原文 2021-04-12 23:37 229 flink

　　反压在流式系统中是一种非常重要的机制，主要作用是当系统中下游算子的处理速度下降，导致数据处理速率低于数据接入的速率时，通过反向背压的方式让数据接入的速率下降，从而避免大量数据积压在flink系统中，最后系统无法正常运行。flink具有天然的反压机制，不需要通过额外的配置就能够完成反压处理。

　　当在flinkUI中切换到Backpressure页签时，flink才会对整个job触发反压数据的采集，反压过程对系统有一定的影响，主要因为jvm进程采样成本较高。flink通过在TaskManager中采样LocalBufferPool内存块上的每个Task的stackTrace实现。默认情况下，TaskManager会触发一百次采样，然后将采样的结果汇报给JobManager，最终通过JobManager进行汇总计算，得出反压比例并在页面中展示，反压比例等于反压出现次数/采样次数。

　　通过在页面中点击Back Pressure页签触发反压检测，整个采样过程大约会持续5s，每次采样的间隔为50ms，持续100次。同时，为了避免让TaskManager过多地采样StackTrace,即使页面被刷新，也要等待60s后才能触发下一次Sampling过程。　　

　　通过触发jvm进程采样的方式获取到反压监控数据，同时flink会将反压状态分为三个级别，分别为OK、LOW、HIGH级别，其中OK对应的反压比例为大于0小于10%，LOW对应的反压比例为10%-50%,HIGH对应的反压比例大于50%小于100%。

　　如果对task进行抽样显示，所有的subtasks状态均显示OK，表示未发生大规模的数据堵塞，系统整体运行正常，不需要做任何调整。

　　如果所有的subtasks状态均显示HIGH，表示系统触发了比较多的反压，需要适当的增加subtask并发度或者降低数据生产速度，否则经过长时间的运行后，系统中处理的数据将出现比较严重的超时现象。

　　针对反压的优化，用户可以调整以下参数：

web.backpressure.cleanup-interval：当启动反压数据采集后，需要等待页面并获取反压数据的时间长度，默认60s
web.backpressure.delay-between-samples：Stack Trace抽样到确认反压状态之间的时延，默认为50ms
web.backpressure.num-sample：设定Stack Trace抽样数以确定反压状态，默认为100

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 如何分析及处理 Flink 反压？ Flink如何分析及处理反压? flink系列-1、flink介绍，反压原理 Flink资料（7） -- 背压监控 Flink 反压浅入浅出如何处理分析Flink作业反压的问题？ Flink中发送端反压以及Credit机制(源码分析) Flink重点难点：Flink任务综合调优(Checkpoint/反压/内存) Flink中接收端反压以及Credit机制 (源码分析) Flink 如何背压