首页 > 其他分享> > 干货:Flink+Kafka 0.11端到端精确一次处理语义实现

干货:Flink+Kafka 0.11端到端精确一次处理语义实现

2021-03-18 19:52:24 作者：互联网

干货:Flink+Kafka 0.11端到端精确一次处理语义实现

浪尖浪尖聊大数据

干货:Flink+Kafka 0.11端到端精确一次处理语义实现
实时处理里消息的仅一次处理是大家关注的重点吧，前面浪尖分享过一篇对比spark streaming 和 flink的文章 <Spark Streaming VS Flink>，里面讲到了如何用spark streaming实现仅一次处理及flink是实现仅一次处理的。本文主要是想详细阐述一下flink结合kafka 0.11的仅一次处理语义。
本文是浪尖翻译整理，英文原文阅读，请点击阅读原文。
干货:Flink+Kafka 0.11端到端精确一次处理语义实现

2017年12月Apache Flink社区发布了1.4版本。该版本正式引入了一个里程碑式的功能：两阶段提交Sink，即TwoPhaseCommitSinkFunction。该SinkFunction提取并封装了两阶段提交协议中的公共逻辑，自此Flink搭配特定source和sink（特别是0.11版本Kafka）搭建精确一次处理语义( exactly-once semantics)应用成为了可能。作为一个抽象类TwoPhaseCommitSinkFunction提供了一个抽象层供用户自行实现特定方法来支持 exactly-once semantics。

用户可以阅读Java文档来学习如何使用TwoPhaseCommitSinkFunction，或者参考Flink官网文档来了解FlinkKafkaProducer011是如何支持 exactly-once semantics的，因为后者正是基于TwoPhaseCommitSinkFunction实现的。

本文将深入讨论一下Flink 1.4这个新特性以及其背后的设计思想。在本文中我们将：

描述Flink应用中的checkpoint如何帮助确保exactly-once semantics
展示Flink如何通过两阶段提交协议与source和sink交互以实现端到端的 exactly-once semantics交付保障
给出一个使用TwoPhaseCommitSinkFunction实现 exactly-once semantics的文件Sink实例

Flink应用的仅一次处理

当谈及仅一次处理时，我们真正想表达的是每条输入消息只会影响最终结果一次！【译者：影响应用状态一次，而非被处理一次】即使出现机器故障或软件崩溃，Flink也要保证不会有数据被重复处理或压根就没有被处理从而影响状态。长久以来Flink一直宣称支持 exactly-once semantics是指在一个Flink应用内部。在过去的几年间，Flink开发出了checkpointing机制，而它则是提供这种应用内仅一次处理的基石。

在继续之前我们简要总结一下checkpointing算法，这对于我们了解本文内容至关重要。简单来说，一个Flink checkpoint是一个一致性快照，它包含：

应用的当前状态
消费的输入流位置

Flink会定期地产生checkpoint并且把这些checkpoint写入到一个持久化存储上，比如S3或HDFS。这个写入过程是异步的，这就意味着Flink即使在checkpointing过程中也是不断处理输入数据的。

如果出现机器或软件故障，Flink应用重启后会从最新成功完成的checkpoint中恢复——重置应用状态并回滚状态到checkpoint中输入流的正确位置，之后再开始执行数据处理，就好像该故障或崩溃从未发生过一般。

在Flink 1.4版本之前，仅一次处理只限于Flink应用内。Flink处理完数据后需要将结果发送到外部系统，这个过程中Flink并不保证仅一次处理。但是Flink应用通常都需要接入很多下游子系统，而开发人员很希望能在多个系统上维持仅一次处理语义，即维持端到端的仅一次处理语义。

为了提供端到端的仅一次处理语义，仅一次处理语义必须也要应用于Flink写入数据的外部系统——故这些外部系统必须提供一种手段允许提交或回滚这些写入操作，同时还要保证与Flink checkpoint能够协调使用。

在分布式系统中协调提交和回滚的一个常见方法就是使用两阶段提交协议。下一章节中我们将讨论下Flink的TwoPhaseCommitSinkFunction是如何利用两阶段提交协议来实现exactly-once semantics的。

2 Flink实现仅一次语义的应用

下面将给出一个实例来帮助了解两阶段提交协议以及Flink如何使用它来实现仅一次处理语义。该实例从Kafka中读取数据，经处理之后再写回到Kafka。Kafka是非常受欢迎的消息队列，而Kafka 0.11.0.0版本正式发布了对于事务的支持——这是与Kafka交互的Flink应用要实现端到端仅一次语义的必要条件。

当然，Flink支持这种仅一次处理语义并不只是限于与Kafka的结合，可以使用任何source/sink，只要它们提供了必要的协调机制。举个例子，Pravega是Dell/EMC的一个开源流式存储系统，Flink搭配它也可以实现端到端的exactly-once semantics。