其他分享
首页 > 其他分享> > spark-数据倾斜

spark-数据倾斜

作者:互联网

spark-数据倾斜

1.解决方案

1.1使用Hive ETL预处理数据

1.2、过滤少数导致倾斜的key

1.3、提高shuffle操作的并行度

1.4、双重聚合

1.5、将reduce join转为map join

1.6 、采样倾斜key并分拆join操作

1. 7、使用随机前缀和扩容RDD进行join

标签:倾斜,并行度,key,join,spark,数据
来源: https://www.cnblogs.com/atao-BigData/p/16504004.html