FLINK重点原理与机制：状态（3）两阶段提交

本文转载自查看原文 2021-08-25 00:32 155 FLINK重点原理与机制

假设一种场景，从Kafka Source拉取数据，经过一次窗口聚合，最后将数据发送到Kafka Sink，如下图：
1.JobManager向Source发送Barrier，开始进入pre-Commit阶段，当只有内部状态时，pre-commit阶段无需执行额外的操作，仅仅是写入一些已定义的状态变量即可。当chckpoint成功时Flink负责提交这些写入，否则就终止取消掉它们。

2.当Source收到Barrier后，将自身的状态进行保存，后端可以根据配置进行选择，这里的状态是指消费的每个分区对应的offset。然后将Barrier发送给下一个Operator。

3.当Window这个Operator收到Barrier之后，对自己的状态进行保存，这里的状态是指聚合的结果(sum或count的结果)，然后将Barrier发送给Sink。Sink收到后也对自己的状态进行保存，之后会进行一次预提交。

4.预提交成功后，JobManager通知每个Operator，这一轮检查点已经完成，这个时候，会进行第二次Commit。

以上便是两阶段的完整流程，提交过程中如果失败有以下几种情况
1.Pre-commit失败，将恢复到最近一次CheckPoint位置
2.一旦pre-commit完成，必须要确保commit也要成功
因此，所有opeartor必须对checkpoint最终结果达成共识：即所有operator都必须认定数据提交要么成功执行，要么被终止然后回滚。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Flink两阶段提交概述 mysql之两阶段提交两阶段提交及JTA MySQL两阶段提交字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化 XA: 事务和两阶段提交 XA两阶段提交协议 ZooKeeper之两阶段提交(2PC) mysql的两阶段提交协议 mysql 内部xa（两阶段提交）