其他分享
首页 > 其他分享> > hive存储格式

hive存储格式

作者:互联网

格式类型

Hive支持的存储数据的格式主要有:TEXTFILE 文本格式文件(行式存储)、 SEQUENCEFILE 二进制序列化文件(行式存储)、ORC(列式存储)、PARQUET(列式存储)等。
hive的存储格式通常是:textfile 、 sequencefile 、 rcfile 、 orc 、自定义 set hive.default.fileformat=TextFile; 默认存储格式为:textfile textFile:普通文本存储,不进行压缩。查询效率较低。

各个格式类型的特点

建表语句是:sorted as Parquet
建表语句是:stored as textfile

textfile,即是文本格式,默认格式,数据不做压缩,磁盘开销大,数据解析开销大

建表语句是:sorted as orc

存储方式:数据按行分块,每块按照列存储。
压缩快,快速列存取。效率比rcfile高,是rcfile的改良版本。

建表语句是:sorted as rcfile

是一种行列存储相结合的存储方式,先将数据按行分块再按列式存储,保证同一条记录在一个块上,避免读取多个块,
有利于数据压缩和快速进行列存储。

总结

建表语句是:sorted as sequencefile

原文章地址:https://www.gxlcms.com/mysql-307720.html
https://www.modb.pro/db/174806

标签:存储,hive,Parquet,格式,textfile,数据,rcfile
来源: https://www.cnblogs.com/1241187306qq/p/16353130.html