其他分享
首页 > 其他分享> > Spark和Flink中的宽依赖和窄依赖

Spark和Flink中的宽依赖和窄依赖

作者:互联网

Spark 中:窄依赖:上游 RDD 流向至多一个下游 RDD ;宽依赖:上游 RDD 流向多个下游 RDD 。

这里的宽和窄,说的是当前节点流向下游节点,当前节点数据是否会分区变多份。

宽依赖往往需要 shuffle 操作,stage 会增加。宽依赖导致当前节点分区,可

能增加数据传输量,下游故障导致当前整个 RDD 重新计算,浪费。不同算子产生

相应的宽窄依赖。

Flink 中也有 stage 的概念,叫 task,多个算子合成一个 task,合成条件要满足:

转载:https://www.cnblogs.com/wudeyun/p/13660540.html 

标签:依赖,ALWAYS,分区,Flink,RDD,Spark,下游,节点
来源: https://blog.csdn.net/weixin_44363315/article/details/122290836