reduceByKey和groupByKey的区别
作者:互联网
reduceByKey和groupByKey的区别
两者都是先根据关键字分组,然后再聚合。
不同点在于:
reduceByKey在分区内会进行预聚合,而后再将所有分区的数据按照关键字来分组聚合。
而groupByKey则不会先进行预聚合,它直接将所有分区的数据一起分组再聚合。大多数情况下,reduceByKey会比groupByKey性能更好。
groupByKey:直接分组聚合
reduceByKey:先在各个分区预聚合,再分组聚合
标签:聚合,区别,分区,groupByKey,reduceByKey,分组,再聚合 来源: https://blog.csdn.net/weixin_45264992/article/details/120834508