其他分享
首页 > 其他分享> > 有赞数据质量保障体系

有赞数据质量保障体系

作者:互联网

一、有赞数据链路

1、数据链路介绍

首先介绍有赞的数据总体架构图:

自顶向下可以大致划分为应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为数据计算、任务调度以及数据查询提供了基础能力。

以上对整体架构做了初步的介绍,对于质量把控来说,最核心的两个部分是:数据仓库以及数据应用部分。因为这两部分属于数据链路中的核心环节,相对于其他层级而言,日常改动也更为频繁,出现问题的风险也比较大。

二、数据层测试

1、整体概览

 首先,针对数据层的质量保障,可以分成三个方面:数据及时性、完整性、准确性。

 

 2、 数据及时性

数据及时性,顾名思义就是测试数据需要按时产出。及时性重点关注的三个要素是:定时调度时间、优先级以及数据deadline。其中任务的优先级决定了它获取数据计算资源的多少,影响了任务执行时长。数据deadline则是数据最晚产出时间的统一标准,需要严格遵守。

这三要素中,属于“普世规则”且在质量保障阶段需要重点关注的是:数据deadline。那么我们基于数据deadline,针对及时性的保障策略就可分为两种:

 

 

其次我们可以关注失败、重试次数,当任务执行过程中出现多次失败、重试的异常情况,可以抛出告警让相关人员感知。这部分的告警是对deadline告警的补充,目前在有赞作业开发平台上也有功能集成。

3、数据完整性

数据完整性,顾名思义看数据是不是全,重点评估两点:数据不多、数据不少。

可见数据完整性和业务本身关联度没有那么密切,更多的是数仓表的通用内容校验。所以从一些基础维度,我们可以将测试重点拆成表级别、字段级别两个方向。

 

表级别完整性:

 目前有赞元数据管理平台已集成相关数据视图:

 

 

标签:有赞,保障体系,全表,deadline,质量,及时性,告警,数据
来源: https://www.cnblogs.com/dashujuzhilu/p/15847945.html