首页 > 其他分享> > Hive 优化

Hive 优化

2020-08-10 06:31:35 作者：互联网

Hive优化

EXPLAIN [EXTENDED] query

抓取策略

本地模式
集群模式

Order By .对于查询结果做全排序,只允许有一个reduce处理
(当数据量较大时，应慎用。严格模式下，必须结合imit来使用)
Sort By-对于单个reduce的数据进行排序
Distribute By -分区排序,经常和Sort By结合使用
Cluster By-相当于Sort By + Distribute By
(Cluster By不能通过asc、 desc的方式指定排序规则;
可通过distribute by colunn sort by colunn ascldesc的方式)

Join计算时,将小表(驱动表)放在join的左边
Map Join:在Map端完成Join
两种实现方式:
-1、SQL方式，在SQL语句中添加MapJoin标记(mapjoin hint)
语法:
SELECT /*+ MAPION(mallTable) */ smallTable key, bigTable.value
FROM smallTable JOIN bigTable ON smallTabl.key = bigTable.key;
-2、开启自动的MapJoin
关联查询的时候，小表放左边
自动的mapjoin
-通过修改以下配置启用自动的mapjoin:
set hive.auto.convet.join = true;
(该参数为true时, Hive自动对左边的表统计量,如果是小表就加入内存,即对小表
用Map join)

文件数目小，容易在文件存储端造成压力，给hdfs造成压力，影响效率

设置合并属性

是否合并map输出文件：hive.merge.mapfiles=true
是否合并reduce输出文件：hive.merge.mapredfiles=true;
合并文件的大小：hive.merge.size.per.task=25610001000

数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换

适用场景：

1、小文件个数过多

2、task个数过多

通过 set mapred.job.reuse.jvm.num.tasks=n; 来设置

（n为task插槽个数）

缺点：设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！

标签：map,join,hive,mapjoin,Hive,key,优化
来源： https://www.cnblogs.com/shaoyayu/p/13467502.html