当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。
大小表join时,将小表放在前面,会将小表进行缓存。
mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作
标签:join,小表,hive,mapjoin,内存,操作,优化,大表
来源: https://www.cnblogs.com/18800105616a/p/11454118.html