其他分享
首页 > 其他分享> > reduceByKey和groupByKey的区别

reduceByKey和groupByKey的区别

作者:互联网

reduceByKey和groupByKey的区别

两者都是先根据关键字分组,然后再聚合。

不同点在于:
reduceByKey在分区内会进行预聚合,而后再将所有分区的数据按照关键字来分组聚合。
而groupByKey则不会先进行预聚合,它直接将所有分区的数据一起分组再聚合。大多数情况下,reduceByKey会比groupByKey性能更好。

groupByKey:直接分组聚合
在这里插入图片描述
reduceByKey:先在各个分区预聚合,再分组聚合
在这里插入图片描述

标签:聚合,区别,分区,groupByKey,reduceByKey,分组,再聚合
来源: https://blog.csdn.net/weixin_45264992/article/details/120834508