Hive优化【二】
作者:互联网
一.严格模式
通过设置以下参数开启严格模式:
>set hive.mapred.mode=strict;【默认为nonstrict非严格模式】
查询限制:
1.对于分区表,必须添加where查询条件来对分区字段进行条件过滤。
2.order by语句必须包含limit输出限制。
3.限制执行笛卡尔积的查询。
二.Hive排序
1.order by:对于查询结果做全排序只允许有一个reduce处理,当数据量较大时,应慎用。严格模式下必须结合limit来使用。
2.sort by:对于单个reduce的数据进行排序。
3.distribute by:分区排序,经常和sort by结合使用。
4.cluster by:相当于sort by + distribute by【cluster by不能通过asc,desc的方法指定排序规则,可通过distribute by column sort by column asc|desc的方式】
三.Hive Join
1.join计算时,将小表放在join的左边。
2.map join,在Map端完成join,实现方式:
2.1sql方式,在sql语句中添加mapjoin标记【mapjoin hint】
语法:select /*+MAPJOIN(smallTable) */ smallTable.key,bigTable.value from smallTable JOIN btTable ON smallTable.key = bigTable.key;
2.2开启自动mapjoin,通过设置一下配置启动自动的mapjoin
set hive.auto.convert.join = true;【该参数为ture时,Hive自动对左边的表统计量,如果是小表就加入内存,即对小表用mapjoin】
相关参数配置:
>hive.mapjoin.smalltable.filesize;【大小表判断阈值,表的大小小于该值则为小表,加载到内存中】
>hive.ignore.mapjoin.hint;【默认值为true,是否忽略mapjoin hint即mapjoin标记】
>hive.auto.convert.join.noconditionaltask;【默认值为true,将普通的join转化为普通的mapjoin时,是否将多个mapjoin转化为一个mapjoin】
>hive.auto.convert.join.noconditionaltask.size;【将多个mapjoin转化为一个mapjoin时,列表的最大值】
标签:sort,join,smallTable,hive,mapjoin,Hive,优化 来源: https://www.cnblogs.com/yszd/p/11124459.html