其他分享
首页 > 其他分享> > Hive分布式数据仓库(大数据)

Hive分布式数据仓库(大数据)

作者:互联网

  数据仓库 数据仓库和数据库的区别 数据仓库的系统结构 Hive概述和体系结构 Hive简介 Hive应用场景 Hive体系结构 华为Hive架构 Hive与传统数据仓库比较(1) Hive与传统数据仓库比较(2) Hive优点 Hive缺点 Hive数据存储模型 Hive分区和分桶 Hive基本操作 Hive数据基本操作(1) Hive数据基本操作(2) Hive SQL介绍 DDL操作(1) DDL操作(2) DDL操作(3) DML操作 DQL操作(1) DQL操作(2) DQL操作(3) Hive支持的函数 Hive数据压缩与文件存储格式 数据仓库   数据仓库和数据库的区别
  1. 联机事务处理(OLTP)
  2. OLTP面向一般的客户,关注企业的当前数据,主要用于存储和管理日常运营的数据。
  3. OLTP的访问模式由短的原子事务组成,同时需要考虑事务管理,并发控制和故障恢复。
 
  1. 联机分析处理(OLAP)
  2. OLAP面向的是管理决策人员,提供数据分析的功能。
  3. 数据仓库与OLAP的关系是互补的。

 

 

  数据仓库的系统结构

 

 

  Hive概述和体系结构 Hive简介
  1. 灵活方便的ETL(extract/transform/load)
  2. 支持Tez,spark等多种计算引擎
  3. 可直接访问HDFS文件以及HBase
  4. 易用易编程
  Hive应用场景

 

 

  Hive体系结构

 

 

  华为Hive架构

 

 

  Hive与传统数据仓库比较(1)

 

 

Hive与传统数据仓库比较(2)

 

 

  Hive优点

 

 

  Hive缺点

 

 

  Hive数据存储模型

 

 

  Hive分区和分桶
  1. 每个分区是一个目录。
  2. 分区数量不固定。
  3. 分区下可再有分区或者桶。
  1. 每个桶是一个文件。
  2. 建表时指定桶个数,桶内可排序。
  3. 数据按照某个字段的值Hash后放入某个桶中。
  Hive基本操作 Hive数据基本操作(1)

 

 

  Hive数据基本操作(2)

 

 

  Hive SQL介绍
  1. 建表,修改修,删表,分区,数据类型
  1. 数据导入,数据导出
  1. 简单查询
  2. 父子查询Group by,Order by,Join等
  DDL操作(1)
  1. create database|schema [if not exists] <database name>
  1. drop (database|schema)[if exists] database_name [restrict|cascade]
  DDL操作(2) create [temporary] [external] table [if not exists] [db_name.] table_name [(col_name data_type [comment col_comment] ,...)] [comment table_comment] [row format row_format] [stored as file_format] like table_name1 [location hdfs_path] describe [tablename]   DDL操作(3) show tables alter table [firest_table] rename to [second_table] alter table table_name add|replace columns (col_name data_type [comment col_comment])   DML操作 load data [local] inpath 'filepath' [overwrite] info table tablename [paetition (partcol1=val1,partcol2=val2)] export table tablename to '/department'   DQL操作(1) select [all | distinct] select_expr,select_expr,.... from table_reference [where where_condition] [group by col_list[having condition]] [cluster by col_list| [distribute by col_list]] [sort by| order by col_list] [limit number]   DQL操作(2) table_reference join table_factor [join_condition] | table_reference {left|right|full} [outer] join table_reference join_condition | table_reference left semi join table_reference join_condition | table_reference cross join table_reference [join_condition] (as of Hive 0.10)   DQL操作(3)
  1. 大的表通过mapper的时候将小标映射到内存中,这样join操作可以被转换伟只有一个任务,无法启动reduce
  2. 提高join效率
  3. hive>select /*+mapjoin(samlltable)*/ .key,value
>from smalltable >join bigtable >on smalltable.key = bigtable.key   Hive支持的函数
  1. 数学函数:如round(),floor(),abs(),rand()等
  2. 日期函数:如to_date(),mouth(),day()等
  3. 字符串函数:如trim(),length(),substr()等
  Hive数据压缩与文件存储格式
  1. gzip
  2. bzip2
  3. lzo
  4. snappy
 
  1. textfile
  2. sequencefile
  3. rcfile
  4. orcfile
  5. parquet

标签:join,数据仓库,Hive,DDL,table,数据,分布式
来源: https://www.cnblogs.com/06080410z/p/16527257.html