其他分享
首页 > 其他分享> > 一.Apache Griffin概述

一.Apache Griffin概述

作者:互联网

文章目录

Apache Griffin概述

Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战。

一.背景

大数据应用当中有一个无法回避的问题,即数据质量的测量。针对这个问题,不同的团队已经构建了定制的工具来检测和分析各自领域内的数据质量问题。因此,Apache Griffin平台意在提供共享基础设施和通用功能,以解决数据质量的常见痛点,有助于建立一个可信的数据资产。

当前,有大量相关联的数据在多平台(流式和批处理)之间流动时,验证数据质量非常困难且成本高昂。以 eBay 的实时个性化平台为例,每天要验证约 6 亿条记录的数据质量。在这种复杂而大规模的环境中,数据质量往往成为一大挑战。

在 eBay 的数据质量中遇到了以下问题:

考虑到这些问题,Apache Griffin——一个旨在解决上述不足的数据质量服务应运而生。

二.框架结构

Apache Griffin 包括:

数据质量模型引擎:Apache Griffin 是一个模型驱动的解决方案,用户可以根据选定的目标数据集或源数据集,选择各种数据质量维度来执行他们的数据质量验证。它在后端有相应的库支持,目前支持以下指标:

数据收集层

Apache Griffin支持两种数据源,批量数据和实时数据。

对于批处理模式,可以通过各种数据连接器从 Hadoop 平台收集数据源。

对于实时模式,可以连接像 Kafka 这样的消息系统进行近实时分析。

数据处理和存储层

对于批量分析,数据质量模型将根据 hadoop 中的数据源计算 Spark 集群中的数据质量指标。

对于近实时分析,使用来自消息传递系统的数据,然后数据质量模型将基于 Spark 集群计算实时数据质量指标。对于数据存储,可以在后端使用Elasticsearch来满足前端请求。

Apache Griffin 服务

项目有提供Restful 服务来完成 Apache Griffin 的所有功能,例如探索数据集、创建数据质量度量、发布指标、检索指标、添加订阅等。因此,开发人员可以基于这些 Web 开发自己的用户界面服务。
在这里插入图片描述

三.支持的功能列表

在当前版本主要支持以下几个 DQ 功能:

未来有待升级的功能:

标签:Griffin,数据源,指标,概述,质量,Apache,数据
来源: https://blog.csdn.net/weixin_43160819/article/details/118103939