其他分享
首页 > 其他分享> > Hive 优化

Hive 优化

作者:互联网

Hive 优化

Hive优化

EXPLAIN [EXTENDED] query

Hive抓取策略:

抓取策略

Hive运行方式:

本地模式
集群模式

并行计算

严格模式

Hive排序

Hive Join

官方文档

相关配置参数:

(大表小表判断的阈值,如果表的大小小于该值则会被加载到内存中运行)

Map-Side聚合

相关配置参数:

合并小文件

文件数目小,容易在文件存储端造成压力,给hdfs造成压力,影响效率

设置合并属性

是否合并map输出文件:hive.merge.mapfiles=true
是否合并reduce输出文件:hive.merge.mapredfiles=true;
合并文件的大小:hive.merge.size.per.task=25610001000

去重统计

数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换

控制Hive中Map以及Reduce的数量

Hive - JVM重用

适用场景:

1、小文件个数过多

2、task个数过多

通过 set mapred.job.reuse.jvm.num.tasks=n; 来设置

(n为task插槽个数)

缺点:设置开启之后,task插槽会一直占用资源,不论是否有task运行,直到所有的task即整个job全部执行完成时,才会释放所有的task插槽资源!

Hive 高可用

压缩和存储

标签:map,join,hive,mapjoin,Hive,key,优化
来源: https://www.cnblogs.com/shaoyayu/p/13467502.html