其他分享
首页 > 其他分享> > 五、Flink的一些重要概念

五、Flink的一些重要概念

作者:互联网

1.程序与数据流 (DataFlow)

2.并行度

不提倡在全局并行度设置并行度,推荐在每个算子中定义并行度

3.算子链(Operator Chain)

3.1 数据传输形式

One-to-One:Stream维护着分区以及元素的顺序(比如source和map之间)。这意味着map算子的子任务看到的元素个数以及顺序根跟source算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap等算子都是one-to-one的对应关系。

Redistributing: Stream的分区会发生改变。每一个算子的子任务依据所算子的transformation发送数据到不同的目标任务。例如,keyby基于hashcode重分区,而broadcast和rebalance会随机重新分区,这些算子都会引起redistribute过程,而redistribute过程类似于Spark的shuffle过程;

3.2 算子链(Operator Chains)

4.执行图(ExecutionGraph)和作业图(JobGraph)

Fink中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图

5.任务(Task)和任务槽(Task Slots)

5.1 任务共享Slot

5.2 Slot和并行度

TaskSlot

标签:Flink,并行度,概念,任务,JobGraph,算子,一些,TaskManager
来源: https://www.cnblogs.com/kunande/p/16342598.html