其他分享
首页 > 其他分享> > 数仓分层

数仓分层

作者:互联网

数据仓库分层

来源

https://www.bilibili.com/video/BV1t54y1r7Mc?p=79

参考文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122426579

数仓建模:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122402191

离线数仓

所谓数仓建模:就是应该建哪些表,表与表之间的关系是怎样的,表里都应该有哪些字段

所谓分层,就是每一层放不同的表,比如ODS,DWD分别方不同的表

ODS(Operation Data Store)原始数据层

ETL(Extract-Transform-Load)

将数据从来源端经过抽取(extract)转换(transform)加载(load)至目的端的过程。是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。

对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的。必须消除源数据中的不一致性

目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

DWD(Data WareHouse detail)明细数据层

所谓这层的数据清洗(比如去除空值,去除脏数数据[手机号码、身份证号码长度不合法]以及数据脱敏)

维度退化:百度数仓建模

说白了这一层就是再对ODS层的数据再次进行整理,因为ODS层的数据可能会比较乱,包括日志的解析(日志在ODS是一个字符串)

这层会做维度建模,事实表(dwd_fact)、维度表(dwd_dim)两种

DWS(Data WareHouse Service)数据服务层

DWT(Data WareHouse Topic)数据主题层

主题,比如用户,地区,说白了就是对象

ADS(Application Data store)数据应用层

为各种统计报表提供数据

azkaban

使用azkaban去调度每一层?百度下

数据仓库为什么要分层

标签:数仓,ODS,建模,分层,DWD,维度,数据
来源: https://www.cnblogs.com/xiaomengniu/p/16252281.html