【离线数仓面试】数仓架构:架构、输入输出、流程、框架选型及版本、项目集群规模、分层架构、分层原因
作者:互联网
1、数仓架构介绍
神策数据:
云上数仓:https://www.aliyun.com/solution/datavexpo/datawarehouse
2、数仓的输入输出
输入系统:用户埋点行为数据、后台产生的业务数据、爬虫数据。
输出系统(BI):报表系统、大屏展示、用户画像系统、推荐系统
3、系统流程
4、框架选型
1)Apache:运维麻烦,需要对组件兼容性进行维护
2)CDH:国内使用最多,不开源,对中、小公司没有影响(建议使用)
3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
5、版本选择
Apache、CDH
6、集群规模(实习项目也可)
每条消息1K,压缩后不0.1K
Kafka所用的空间计算
7、数仓分层架构
ods 原始数据层 存放原始数据,保持原貌不做处理
dwd 明细数据层 对ods层数据清洗(去除空值,脏数据,超过极限范围的数据)
dws 服务数据层 轻度聚合 形成宽表
ads 应用数据层 具体需求
8、为什么对数仓分层
分层优点:复杂问题简单化、清晰数据结构(方便管理)、增加数据的复用性、隔离原始数据(解耦)
标签:数仓,架构,数据,CDH,分层,原始数据 来源: https://www.cnblogs.com/liujinhui/p/15828459.html