其他分享
首页 > 其他分享> > Hive了解

Hive了解

作者:互联网

转自:https://aws.amazon.com/cn/big-data/what-is-hive/

https://www.jianshu.com/p/e9ec6e14fe52,https://blog.csdn.net/qq_26442553/article/details/80300714

1.简介

Facebook为了解决海量日志数据的分析而开发了Hive,Hive是一种用类SQL语句来协助读写、管理存储在分布式存储系统上大数据集的数据仓库软件。

Hive 让用户可以利用 SQL 读取、写入和管理 PB 级数据,将复杂的MapReduce编写任务简化为SQL语句。因为Hive语句最终会生成MapReduce任务去计算,所以不适用于实时计算的场景,它适用于离线分析。

 2.Hive架构

 Hive的底层数据是存储在HDFS上的,Hive中的库和表可以看作是对HDFS上数据做的一个映射,所以Hive必须是运行在一个Hadoop集群上的。

3.Hive文件格式

  1. TEXTFILE。为默认格式,导入数据时会直接把数据文件拷贝到hdfs,行存储。
  2. SEQUENCEFILE
  3. RCFILE
  4. ORCFILE(0.11以后出现) 

 其中sequencefile是进行二进制格式编码压缩,也是基于行存储,rcfile是基于列存储。

 4.行存储与列存储

表:

按行存储:

按列存储:

 

标签:HDFS,存储,Hive,查询,了解,SQL,数据
来源: https://www.cnblogs.com/BlueBlueSea/p/16543348.html