其他分享
首页 > 其他分享> > Hive存储格式及优化

Hive存储格式及优化

作者:互联网

Hive的数据存储格式


Hive通用调优

1、Fetch抓取机制
2、mapreduce本地模式
3、join优化

尽量不进行两个表以上的关联拆卸

from t2 join t1

from t2 join t3

4、group by 数据倾斜优化
(1)是否在 Map 端进行聚合,默认为 True
set hive.map.aggr = true;
(2)在 Map 端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000;
(3)有数据倾斜的时候进行负载均衡(默认是 false)
set hive.groupby.skewindata = true;

--Q:在hive中数据倾斜开启负载均衡之后 底层执行机制是什么样?
男性 女性
--step1:启动一个MapReduce程序 将倾斜的数据随机发送到各个reduce中 进行打散 
        每个reduce进行聚合都是局部聚合
        
--step2:再启动第二个MapReduce程序 将上一步局部聚合的结果汇总起来进行最终的聚合       

5、hive中如何调整底层MapReduce中task的个数(并行度)
6、其他几个通用调优

标签:存储,join,string,--,hive,orc,Hive,格式,id
来源: https://blog.csdn.net/ljh18885466426/article/details/120847241