其他分享
首页 > 其他分享> > 数据仓库知识点整理

数据仓库知识点整理

作者:互联网

数据仓库知识点整理

1. 维表和宽表的考查(主要考察维表的使用及维度退化手法)

维表数据一般根据ods层数据加工生成,在设计宽表的时候,可以适当的用一些维度退化手法,将维度退化到事实表中,减少事实表和维表的关联。

1.1 宽表

字面意义讲就是字段比较多大的数据库表。通常指业务主题相关的指标、维度、属性关联在一起的一张数据库表。宽表由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范。

1.2 维度退化

维度建模过程中,有一种维度叫Degenerate Dimension(退化维度),退化维度一般都是事务的编号,如订单编号、发票编号等。这类编号需要保存到事实表中,但是不需要对应的维度表,所以称为退化维度。

2. 数仓表命名规范

应包含层次、主题、业务线、表含义、存储策略、跑批周期
作用:避免模型重复建设、可读性强

3. 拉链表的使用场景

2.1 全量表

存储每天的所有的最新状态的数据。全量抽取,每个分区保留历史全量快照。
dt-1分区数据 = dt-1变化的数据 + dt-1未变化的数据

2.2 增量表

2.3 拉链表

维护历史状态,以及最新状态数据
适用场景:

优点;

2.4 如何选择

4. 一亿条数据查的很慢,怎么查快一点

避免全表扫描、注重SQL语句写法(如用exists替代in等)、索引,如果查询的表有可能会在查询时段更新,而实际业务需求允许脏读,可加with(nolock)预防查询被更新事物阻塞。
https://www.cnblogs.com/hangwei/p/4399238.html

5. 有什么维表

维度,指分析的各个角度。如我们希望按照时间、地区、产品进行分析,那么这里的时间、地区、产品就是相应的维度。

6. 数据源都有哪些

7. 你们最大的表是什么表,数据量多少

nginx日志表,清洗入库后数据一天大概xxxxW

8. 数仓架构体系

在这里插入图片描述

9.数据平台是怎样的,用到了阿里的那一套吗?

没用到阿里那一套,数据平台为自研产品

10. 你了解的调度系统有那些?,你们公司用的是哪种调度系统

11. 你们公司数仓底层是怎么抽数据的?

12. 为什么datax抽数数要比sqoop快?

https://mp.weixin.qq.com/s?__biz=MzI2MDQzOTk3MQ==&mid=2247484752&idx=1&sn=567442111447f2a7cac5379b694205f7&chksm=ea68ef9cdd1f668ad81e435e8c42a622f0ccfda773ff03485fad3cabeb1bd9aeea2e8cb40428&scene=21#wechat_redirect

https://my.oschina.net/u/4631230/blog/4617472

标签:知识点,数据量,数据仓库,维度,退化,维表,整理,数据,宽表
来源: https://blog.csdn.net/HW_870754395/article/details/113601552