其他分享
首页 > 其他分享> > hive大小表join性能优化

hive大小表join性能优化

作者:互联网

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。

大小表join时,将小表放在前面,会将小表进行缓存。

mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作

标签:join,小表,hive,mapjoin,内存,操作,优化,大表
来源: https://www.cnblogs.com/18800105616a/p/11454117.html