首页 > 其他分享> > Spark和Flink中的宽依赖和窄依赖

Spark和Flink中的宽依赖和窄依赖

2022-01-03 19:02:01 作者：互联网

Spark 中：窄依赖：上游 RDD 流向至多一个下游 RDD ；宽依赖：上游 RDD 流向多个下游 RDD 。

这里的宽和窄，说的是当前节点流向下游节点，当前节点数据是否会分区变多份。

宽依赖往往需要 shuffle 操作，stage 会增加。宽依赖导致当前节点分区，可

能增加数据传输量，下游故障导致当前整个 RDD 重新计算，浪费。不同算子产生

相应的宽窄依赖。

Flink 中也有 stage 的概念，叫 task，多个算子合成一个 task，合成条件要满足：

标签：依赖,ALWAYS,分区,Flink,RDD,Spark,下游,节点
来源： https://blog.csdn.net/weixin_44363315/article/details/122290836