首页 > TAG信息列表 > 血缘

李卓豪:网易数帆数据中台逻辑数据湖的实践

导读: 本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分: 关于网易数帆 为什么做逻辑数据湖 怎么做逻辑数据湖 未来规划 精彩问答 -- 01 关于网易数帆 网易数帆是从网易杭州研究院孵化出来的。网易

基于Hive内部接口实现的Hive数据血缘的介绍

文章目录 Hive 数据血缘实现介绍表级别表级别总结推荐阅读: 字段级别字段级别总结推荐阅读: Hive 数据血缘实现介绍 Hive作为一个离线数仓工具,其实自带了数据血缘分析的解决方案: 表级别: org.apache.hadoop.hive.ql.tools 下的LineageInfo类字段级别:这里有两种方式

马哈鱼血缘分析工具介绍

SQLFlow通过分析SQL查询和存储过程来生成数据血缘关系。数据血缘关系模型中的实体包括表、列、函数、关系和其他实体。实体和数据流的组合显示了从一个表/列到另一个表/列的沿袭。 1、数据流单元 数据流单元包括源实体、目标实体以及它们之间的数据流类型。 SELECT p.FirstName f

数据中台(元数据篇)

声明:本文归属一寸HUI所有。@一寸HUI 在上一篇文章数据中台(架构篇)中了解到了数据中台的架构,其中我们一个很重要的部分就是要构建数据资产,而数据资产中的元数据管理又是很重要的部分,接下来我们从几个方面了解元数据:搞懂什么是元数据?元数据和数据的区别是什么?元数据有什么作用?元数

马哈鱼血缘分析工具--专业且易用的数据血缘分析器

马哈鱼血缘分析工具--专业且易用的数据血缘分析器   随着大数据技术的发展与普及,数据治理和数据质量变得越来越重要,数据血缘分析在业界悄然兴起并得到了广泛流行,马哈鱼是国内少有的一款专业且易用的血缘分析工具。据资料显示,马哈鱼是当前最流行的数据血缘关系(data lineage)管理

089、Spark-RDD-检查点

所谓的检查点其实就是通过将RDD中间结果写入磁盘 由于血缘依赖过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果检查点之后有节点出现问题,可以从检查点开始重做血缘,减少了开销。 对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。 缓存和检查点

全链路数据血缘在满帮的实践

摘要:全链路数据血缘,指在数据的全生命周期内,数据与数据之间会形成各式各样的关系,贯穿整个数据链路中。 本文分享自华为云社区《全链路数据血缘在满帮的实践》,作者: 你好_TT。 什么是全链路数据血缘 根据维基百科定义,数据血缘(Data Lineage)又叫做数据起源(Data Provenance)或者数据家谱(D

马哈鱼数据血缘分析器对象血缘分析功能介绍

马哈鱼数据血缘分析器对象血缘分析功能介绍 一、对象血缘分析功能介绍 马哈鱼数据分析器中对象数据流是它的基本功能之一,它的主要功能是分析客户SQL语句中数据流在表、视图等对象级别上的流向关系。需要说明的是,马哈鱼可以一次分析多个SQL语句,但是每个语句必须以明确的分号‘;’结

数据治理中Oracle SQL和存储过程的数据血缘分析

数据治理中Oracle SQL和存储过程的数据血缘分析   数据治理中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。 分析数据血缘的方法主要分为四类 自动

数据治理中Oracle SQL和存储过程的数据血缘分析

数据治理中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。 分析数据血缘的方法主要分为四类 自动解析系统跟踪机器学习人工收集 自动解析主要是利用工具解

马哈鱼血缘分析器用户体系介绍

马哈鱼血缘分析器用户体系介绍 随着大数据技术的发展与普及,数据治理和数据质量变得越来越重要,数据血缘分析在业界悄然兴起并得到了广泛流行,马哈鱼是国内少有的一款专业且易用的血缘分析工具。据资料显示,马哈鱼是当前最流行的数据血缘关系(data lineage)管理工具之一,它在全球IT界范

利用job提升马哈鱼数据血缘分析效率

利用job提升马哈鱼数据血缘分析效率 一、Job基本知识 前面文章中已介绍马哈鱼的基本功能,其中一个是job,job其实是一个任务集合处理的概念,就是让用户通过job,可以一次递交所有需要处理的 SQL,SQLFlow处理这些 SQL,把所有的数据血缘都分析出来。从用户角度,job包含job list和The Latest J

利用元数据提高数据血缘分析的准确性

一、马哈鱼: 数据治理专家的一把利器 数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据治理分析师常常需

数据中台之数据血缘的具体实现

目录 前言 前置知识 Hive Hook  Neo4j基础入门 数据血缘数据结构设计 数据录入测试代码 主逻辑实现 参考文章 前言 在数据中台之元数据管理系统的搭建一文中我们提到了自己实现数据血缘,本文就这个话题进行详细展开。如果采集后的血缘存储在mysql等传统数据中,随着采集sql的增多很

数据治理中的数据血缘关系是什么?用来解决什么问题

前言: 数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。 数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个