其他分享
首页 > 其他分享> > Flink 1.13,面向流批一体的运行时与 DataStream API 优化

Flink 1.13,面向流批一体的运行时与 DataStream API 优化

作者:互联网

简介: 在 1.13 中,针对流批一体的目标,Flink 优化了大规模作业调度以及批执行模式下网络 Shuffle 的性能,以及在 DataStream API 方面完善有限流作业的退出语义。

本文由社区志愿者苗文婷整理,内容来源自阿里巴巴技术专家高赟(云骞) 在 5 月 22 日北京站 Flink Meetup 分享的《面向流批一体的 Flink 运行时与 DataStream API 优化》。文章主要分为 4 个部分:

  1. 回顾 Flink 流批一体的设计
  2. 介绍针对运行时的优化点
  3. 介绍针对 DataStream API 的优化点
  4. 总结以及后续的一些规划。

 

1. 流批一体的 Flink

1.1 架构介绍

首先看下 Flink 流批一体的整体逻辑。Flink 在早期的时候,虽然是一个可以同时支持流处理和批处理的框架,但是它的流处理和批处理的实现,不管是在 API 层,还是在底下的 Shuffle、调度、算子层,都是单独的两套。这两套实现是完全独立的,没有特别紧密的关联。

img

在流批一体这一目标的引导下,Flink 现在已经对底层的算子、调度、Shuffle 进行了统一的抽象,以统一的方式向上支持 DataStream API 和 Table API 两套接口。DataStream API 是一种比较偏物理层的接口,Table API 是一种 Declearetive 的接口,这两套接口对流和批来说都是统一的。

img

1.2 优点

img

1.3 数据处理过程

下面简单介绍 Flink 是怎么抽象流批一体的,Flink 把作业拆成了两种:

1.4 近期演进

Flink 在最近的几个版本中,在 API 和实现层都朝着流批一体的目标做了很多的努力。

img

2. 运行时优化

2.1 大规模作业调度优化

2.1.1 边的时间复杂度问题

Flink 提交作业时会生成一个作业的 DAG 图,由多个顶点组成,顶点对应着我们实际的处理节点,如 Map。每个处理节点都会有并发度,此前 Flink 的实现里,当我们把作业提交到 JM 之后,JM 会对作业展开,生成一个 Execution Graph。

如下图,作业有两个节点,并发度分别为 2 和 3。在 JM 中实际维护的数据结构里,会分别维护 2 个 task 和 3 个 task,并由 6 条执行边组成,Flink 基于此数据结构来维护整个作业的拓扑信息。在这个拓扑信息的基础上,Flink 可以单独维护每个 task 的状态,当任务挂了之后以识别需要拉起的 task。

如果以这种 all-to-all 的通信,也就是每两个上下游 task 之间都有边的情况下,上游并发 下游并发,将出现 O(N^2) 的数据结构。这种情况下,内存的占用是非常惊人的,如果是 10k 10k 的边,JM 的内存占用将达到 4.18G。此外,作业很多的计算复杂度都是和边的数量相关的,此时的空间复杂度为 O(N^2) 或 O(N^3),如果是 10k * 10k 的边,作业初次调度时间将达到 62s。
img

可以看出,除了初始调度之外,对于批作业来说,有可能是上游执行完之后继续执行下游,中间的调度复杂度都是 O(N^2) 或 O(N^3),这样就会导致很大的性能开销。另外,内存占用很大的话,GC 的性能也不会特别好。

img

2.1.2 Execution Graph 的对称性

针对 Flink 在大规模作业下内存和性能方面存在的一些问题,经过一些深入分析,可以看出上述例子中上下游节点之间是有一定对称性的。

Flink 中 “边” 的类型可以分为两种:

img

所以,Flink 在 1.13 中对上游的数据集和下游的节点分别引入了 ResultPartitionGroup 和 VertexGroup 的概念。尤其是对于 All-to-all 的边,因为上下游之间是对称的,可以把所有上游产生的数据集放到一个 Group 里,把下游所有的节点也放到一个 Group 里,在实际维护时不需要存中间的边的关系,只需要知道上游的哪个数据集是被下游的哪个 Group 消费,或下游的哪个顶点是消费上游哪个 Group 的数据集。
通过这种方式,减少了内存的占用。

img

另外,在实际做一些调度相关计算的时候,比如在批处理里,假如所有的边都是 blocking 边的情况下,每个节点都属于一个单独的 region。之前计算 region 之间的上下游关系,对上游的每个顶点,都需要遍历其下游的所有顶点,所以是一个 O(N^2) 的操作。
而引入 ConsumerGroup 之后,就会变成一个 O(N) 的线性操作。

img

2.1.3 优化结果

经过以上数据结构的优化,在 10k * 10k 边的情况下,可以将 JM 内存占用从 4.18G 缩小到 12.08M, 初次调度时间长从 62s 缩减到 12s。这个优化其实是非常显著的,对用户来说,只要升级到 Flink 1.13 就可以获得收益,不需要做任何额外的配置。

img

2.2 Sort-Merge Shuffle

另外一个优化,是针对批的作业在数据 shuffle 方面做的优化。一般情况下,批的作业是在上游跑完之后,会先把结果写到一个中间文件里,然后下游再从中间文件里拉取数据进行处理。

这种方式的好处就是可以节省资源,不需要上游和下游同时起来,在失败的情况下,也不需要从头执行。这是批处理的常用执行方式。

2.2.1 Hash Shuffle

那么,shuffle 过程中,中间结果是如何保存到中间文件,下游再拉取的?

之前 Flink 引入的是 Hash shuffle,再以 All-to-all 的边举例,上游 task 产生的数据集,会给下游的每个 task 写一个单独的文件,这样系统可能会产生大量的小文件。并且不管是使用文件 IO 还是 mmap 的方式,写每个文件都至少使用一块缓冲区,会造成内存浪费。下游 task 随机读取的上游数据文件,也会产生大量随机 IO。

所以,之前 Flink 的 Hash shuffle 应用在批处理中,只能在规模比较小或者在用 SSD 的时候,在生产上才能比较 work。在规模比较大或者 SATA 盘上是有较大的问题的。

img

2.2.2 Sort Shuffle

所以,在 Flink 1.12 和 Flink 1.13 中,经过两个版本,引入了一种新的基于 Sort Merge 的 shuffle。这个 Sort 并不是指对数据进行 Sort,而是对下游所写的 task 目标进行 Sort。

大致的原理是,上游在输出数据时,会使用一个固定大小的缓冲区,避免缓冲区的大小随着规模的增大而增大,所有的数据都写到缓冲区里,当缓冲区满时,会做一次排序并写到一个单独文件里,后面的数据还是基于此缓存区继续写,续写的一段会拼到原来的文件后面。最后单个的上游任务会产生一个中间文件,由很多段组成,每个段都是有序的结构。

img

和其他的批处理的框架不太一样,这边并不是基于普通的外排序。一般的外排序是指会把这些段再做一次单独的 merge,形成一个整体有序的文件,这样下游来读的时候会有更好的 IO 连续性,防止每一段每一个 task 要读取的数据段都很小。但是,这种 merge 本身也是要消耗大量的 IO 资源的,有可能 merge 的时间带来的开销会远超过下游顺序读带来的收益。

所以,这里采用了另外一种方式:在下游来请求数据的时候,比如下图中的 3 个下游都要来读上游的中间文件,会有一个调度器对下游请求要读取的文件位置做一个排序,通过在上层增加 IO 调度的方式,来实现整个文件 IO 读取的连续性,防止在 SATA 盘上产生大量的随机 IO。

在 SATA 盘上,相对于 Hash shuffle,Sort shuffle 的 IO 性能可以提高 2~8 倍。通过 Sort shuffle,使得 Flink 批处理基本达到了生产可用的状态,在 SATA 盘上 IO 性能可以把磁盘打到 100 多M,而 SATA 盘最高也就能达到 200M 的读写速度。

img

为了保持兼容性,Sort shuffle 并不是默认启用的,用户可以控制下游并发达到多少来启用 Sort Merge Shuffle。并且可以通过启用压缩来进一步提高批处理的性能。Sort Merge shuffle 并没有额外占用内存,现在占用的上游读写的缓存区,是从 framework.off-heap 中抽出的一块。

img

3. DataStream API 优化

3.1 2PC & 端到端一致性

为了保证端到端的一致性,对于 Flink 流作业来说,是通过两阶段提交的机制来实现的,结合了 Flink 的 checkpoint、failover 机制和外部系统的一些特性。

大概的逻辑是,当我想做端到端的一致性,比如读取 Kafka 再写到 Kafka,在正常处理时会把数据先写到一个 Kafka 的事务里,当做 checkpoint 时进行 preCommit,这样数据就不会再丢了。

如果 checkpoint 成功的话,会进行一次正式的 commit。这样就保证了外部系统的事务和 Flink 内部的 failover 是一致的,比如 Flink 发生了 failover 需要回滚到上一个 checkpoint , 外部系统中跟这一部分对应的事务也会被 abort 掉,如果 checkpoint 成功了,外部事务的 commit 也会成功。

Flink 端到端的一致性依赖于 checkpoint 机制。但是,在遇到有限流时,就会有一些问题:

以上就会导致在流模式下,有限流作业流/批执行模式结果不一致。

img

3.2 支持部分 Task 结束后的 Checkpoint (进行中)

从 Flink 1.13 开始,支持在一部分 task 结束之后,也能做 checkpoint。checkpoint 实际上是维护了每个算子的所有 task 的状态列表。

img

在有一部分 task 结束之后,如下图的虚线部分。Flink 会把结束的 task 分为两种:

img

Flink 也重新整理了结束语义。现在 Flink 作业结束有几种可能:

之前这边是两种不同的实现逻辑,并且都有最后一部分数据无法提交的问题。

img

4. 总结

在 Flink 的整个目标里,其中有一点是期望做一个对有限数据集和无限数据集高效处理的统一平台。目前基本上已经有了一个初步的雏形,不管是在 API 方面,还是在 runtime 方面。下面来举个例子说明流批一体的好处。

针对用户的回流作业,平时是处理无限流的作业,如果某一天想改个逻辑,用 stop-with-savepoint 方式把流停掉,但是这个变更逻辑还需要追回到前两个月之内的数据来保证结果的一致性。此时,就可以启一个批的作业:作业不加修改,跑到提前缓存下来的输入数据上,用批的模式可以尽快地订正前两个月的数据。另外,基于新的逻辑,使用前面保存的 savepoint,可以重启一个新的流作业。

可以看出,在上述整个流程中,如果是之前流批分开的情况,是需要单独开发作业进行数据订正的。但在流批一体的情况下,可以基于流的作业自然的进行数据订正,不需要用户再做额外的开发。

在 Flink 后续的版本中,还会进一步考虑更多流批结合的场景,比如用户先做一个批的处理,对状态进行初始化之后,再切到无限流上的场景。当然,在流和批单独的功能上,也会做进一步的优化和完善,使得 Flink 在流批方面都是具有竞争力的计算框架。

img

原文链接
本文为阿里云原创内容,未经允许不得转载。

标签:DataStream,task,1.13,Flink,作业,API,流批,数据
来源: https://www.cnblogs.com/yunqishequ/p/14958605.html