首页 > 其他分享> > spark-数据倾斜 spark-数据倾斜 2022-07-21 23:40:23 作者:互联网 spark-数据倾斜 1.解决方案 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容RDD进行join 标签:倾斜,并行度,key,join,spark,数据 来源: https://www.cnblogs.com/atao-BigData/p/16504004.html