其他分享
首页 > 其他分享> > hive数据仓库表设计

hive数据仓库表设计

作者:互联网

昨天面对某客户域做表关联的时候发现了。有两张相同内容的表。但是表的设计结构并不相同:

+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id      | int | |
| name   | string | |
| phone   | string | |
| gender   | string | |
| cardno  | string | |
| age    | string | |
| school   | string | |
| quora    | int | |

..

...

..

目测有60个字段这是一张宽表.
+------------+------------+----------+--+

 

 

+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id      | int | |
| value1  | string | |
| type1  | string | |
| value2  | string | |
| type2  | string | |
| age    | string | |
| school   | string | |
| quora    | int | |

 

目测有不到10个字段
+------------+------------+----------+--+

这是一张窄表

 

select type1,type2 from thistable group by type1,typ2;

发现类型数据有14种类左右

这样就相当于把第一个宽表的数据(可能剔除了不重要的字段)然后完全放开,行数暴增。

 

为什么这样设计。我也不明白

我不太清楚

标签:string,int,type1,name,comment,id,type2
来源: https://www.cnblogs.com/wqbin/p/10255155.html