熵简技术谈 | 熵简科技在资管数据中台的探索与实践
作者:互联网
导读:数据中台是熵简科技数据智能解决方案中的核心部分。引入数据中台可以打破数据与数据的界限、技术与业务的界限,为业务层的迭代提供更快的数据响应,真正做到业务数据化、数据资产化。
熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。本文将从数据仓库建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管场景下的落地规范和方案。
作者信息:熵简科技 Airworks 团队,团队致力于打造高性能、低代码的一体化大数据分析平台,为机构组织的数据团队及各业务部门人员提供“数据智能全链路”平台及解决方案,涵盖数据清洗、数据融合、数据建模、数据可视化、数据服务等多个维度,全面助力客户实现业务数智化。。
本文的主要内容包括:
1.数据中台整体架构
2.数据仓库建设
3.数据整理和开发平台
4.数据服务体系
5.结语
01. 数据中台整体架构
数据中台是资管机构数据智能解决方案中核心的一环。资管机构内部的数据源和数据量往往是异构且巨大的,在引入数据中台之前,这些数据存在各个竖井式的应用中、各业务部门或负责人的数据库中,数据之间相互隔离,无法快速进行融合和分析。
而引入数据中台后将会带来如下几点优势:
●业务层数据往往聚合了若干异构数据源,数据中台可以支持海量数据源的高效治理、提供清晰的数据血缘追踪,对多源异构数据源进行高效的数据治理,通过交叉分析贡献业务价值。
●通过规范的数据分层,清晰定义每个数据层的作用域,能够极大减少重复计算;数据中台作为前台业务与后台系统之间的变速齿轮,为快速的功能迭代提供数据响应基础。
熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。其功能架构分为数据源、数据开发运维、数据资产管理和数据服务四层。
数据源
按照数据形式分为结构化数据、半结构化数据和非结构化数据。其中一方数据大多为结构化数据。三方数据既包括了财务数据、行情数据、指标数据等结构化数据,也包括了研报、图片、评论等半结构化/非结构化数据。
数据开发运维
数据开发包括离线开发、实时开发和算法开发三个部分。其中以 ETL 为核心的离线开发是数据仓库分层的重要手段。
数据资产管理
数据资产管理包括了数据资产管理、数据治理和数据安全三个部分。通过数据资产管理,机构内部所有数据在数据中台汇聚成了有机可复用的数据资产,为业务层的需求提供更快的响应,发掘更大的价值。
数据服务
数据服务包括了面向应用的 API 服务和面向探索分析的 BI 可视化功能。除此之外,数据中台可以扩展标签中心、智能推送等更多的数据智能服务。
熵简数据中台的技术框架如下图所示。我们的数据仓库建立在以对象存储为基础的 Hive 表之上,数据计算分别基于 Spark 集群和 Flink 集群提供离线支持和流式支持,最上层通过 OLAP 引擎 ClickHouse 对外提供统一的数据分发服务。整个数据中台搭建在 Kubernetes 集群之上。
接下来我们将从数据仓库建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管机构落地的规范和方案。
02数据仓库建设
资管数据仓库本质上是一套面向资管业务场景的方法论,涉及从数据规范、指标定义、数据管理到数据开发和数据服务,并保证全流程的数据血缘清晰、可管理、高复用、可追溯。本小节将从核心需求、元数据模型、分层架构、数据管理规范和数仓评价体系这几个方面,对资管数仓的建设进行详细阐述。
2.1 核心需求
在传统的、没有进行统一数据仓库建设的资管机构中,对于数据的使用是“烟囱式”的,各数据源、中间表、数据应用之间相互独立,没有专门的数据开发人员负责统一建设。
从业务视角来看,业务分析场景用到的指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。
从技术视角来看,指标定义和指标命名混乱,指标不唯一,指标维护口径不一致;指标生产重复建设;数据汇算成本较高;数据输出和服务的出口不统一,重复输出,输出口径不一致。
为了解决以上痛点,我们需要建设一个统一的分层数据仓库做统一管理,为此我们要从定义元数据模型、搭建分层数据架构、指定数据管理规范和指标体系管理工具产品化四个层面做建设,在系统产品层面打通完整数据流。在业务上 统一数据出口、覆盖全域数据场景;在技术上统一指标和维度管理,统一数据计算口径。
下面我们将着重介绍元数据模型定义、分层数据架构搭建和数据管理规范三个方面的建设内容。
2.2 元数据模型
元数据模型是构建数据仓库的基础,贯穿了数据仓库的整个生命周期。从一般性角度而言,元数据模型定义和规范了源数据到数仓的各层级流程、映射、变换的规则、工具、操作周期等各类关键信息。在此基础上,我们才有可能完成诸如数据血源查询、数据一致性校验、多实体多维度关联、多层级回溯等上层分析目标。
由于篇幅限制,本小节重点聚焦在元数据模型在数据结构以及指标定义等方面的内容。对于资管数据仓库而言,构建元数据模型的设计目标是通过数据规范的定义和引入,来全面、准确地描述资管业务。
接下来,我们以面向投研场景的元数据模型为例,详细介绍熵简数仓在元数据方面的设计思想和实践经验。对于面向投研需求的元数据模型,其最终设计目标是通过对多源异构数据源的统一规范,来准确、完备地描述投资标的,理论上满足投资分析所需的全部信息需求。
在实践中,我们的元数据模型是以 Kimball 提出的维度建模(DM)理论为基础,同时还参考了阿里的 Onedata 体系的设计理念,比如一个指标只有一个英文字段、一个中文字段以及一个计算定义。
上图展示了整体的数据模型架构,整个架构分成业务板块、元数据模型、分层设计三个部分:
业务板块:业务层针对资管场景中常见的数据存储和使用需求,按照业务场景进行抽象和细分,如投研、交易、风控、营销等不同的业务场景。由于各个业务场景所用到的数据源和数据类型具有较大的差异性,一般而言,针对每一个业务场景都会设计专门的子元数据模型。各个子元数据模型的合集构成整个数仓的元数据模型,以提供完备的数据规范标准。
元数据模型:对所属业务场景下所需的全部数据进行抽象,定义统一的数据模型、指标类型和管理规范。以投研场景为例,其元数据模型包括了行业数据、财务数据、宏观经济数据、行业数据、工商数据等各类投研所需数据的组织规范、命名规范、存放标准以及层次关系等。
分层设计:在物理上,元数据模型中定义的物理表都会归属于某一个数据层。因此,这部分主要定义数仓模型的分层架构,明确各层任务、主要数据类型和关键性能指标,实现各层数据与应用的去耦合,以尽量避免“烟囱式”的数据开发现象,提高各个数据的复用率。这部分的细节将在2.3节中讨论。
2.3 分层架构
数据仓库的分层设计是一套行之有效的数据组织和管理方法。虽然分层架构并不能解决所有的数据问题,但分层架构可以帮助清晰数据结构、减少重复开发和统一数据口径。每一个数据分层都有它的作用域和职责,越靠近上层的数据层越便于应用和分析,越靠近底层的数据层越保留更多的原始数据信息。实际使用中,80% 的数据取用需求可以用最上层的20% 数据解决,只有少部分数据取用需求需要触及底层原始数据。
数据分层的设计,在某种程度上也需要通过数据命名来体现,本节核心在于讲解数据分层的思想和方法,下一小节会介绍设计数据表的命名规范。
具体来说我们将数据模型分为五层:数据接入层(ODS)、数据明细层(DWD)、数据汇总层(DWS)、数据集市层(DWM)和数据应用层(APP)。简单来讲 ODS 层存放的是接入的原始数据,DWD 层存放的是经过 ETL 清洗加工的高质量原始数据,DWS 层存放的是数据轻度聚合后的结果,DWM 存放的是面向业务的宽表,APP 层存放的是面向业务定制的应用数据。下面以熵简另类数据集中的电商数据为例详细介绍这几层的含义。
2.4 数据管理规范
2.4.1 模型设计规范
模型设计规范是指在分层数据仓库架构中,如何去设计每一层的模型(数据表)以及其命令规范。
我们根据两个原则去设计分层模型:
●分层架构的定义,解决数据需要放到哪里的问题。
●业务的数据需求和数据的业务属性,解决数据要存储成什么字段、什么格式的问题。
此外,我们对每一层数据模型制定了一套统一规则去进行命名,其中的一类是按照“数据源-数据域-维度类别-更新周期-更新方式”的规则进行命名。例如:“熵简另类数据-电商数据-销售情况-月度汇总表”。
通过规范的模型设计,打通了数据部分和业务部分的隔离,任何了解模型设计规范的人员都可以直接通过平台统一管控的模型了解到数据的含义,做到数据可管理、可追溯、可复用。
2.4.2 维度管理规范
维度管理规范是指制定一个统一的维度表模型,在模型基础上建立维度,对维度新增、修改、发布等生命周期进行统一管理。
这里会对维度进行主题分类,例如时间类(date)、实体类(entity)、行为类(behavior)、来源类(source)、布尔类(boolean)等,维度编码按照”维度主题-维度标识-唯一编码“的形式编码。
实践中,维度建模的过程会从资管机构的实际业务场景触发,选择具体的业务场景和数据源,确定汇总的粒度,进而确定维度。此外维度间还会定义层级关系,定义好维度层级后就可以在应用层面提供维度值的上卷下钻查询服务。
2.4.3 指标定义规范
我们将数据仓库中的指标分为三种类型:
●原子指标:含义是一个实体在一个行为场景下的具体度量,例如“商品销售额”。
●派生指标:含义是在具体修饰词下的原子指标或原子指标的汇总,例如“近半年月均销售额”。
●计算指标:含义是对原子指标进行统计加工后得到的指标,例如”月度销售额同比”。
指标定义规范是指统一指标定义的规范,其通过制定原子指标的命名规则、派生指标的命名规则和指标计算规则来完成。一个完善的指标定义规范可以大大降低后续的使用成本和维护成本。
用于资管机构的指标定义规范很大程度上依赖于我们的元数据模型,例如对金融实体对象的度量,通常包括财务指标、行情数据、经济指标、另类指标等类型。这些指标具有不可拆分性和通用性,对于资管数据仓库的建设具有直接指导意义。
2.5 数据模型评价体系
介绍完数据仓库的数据管理规范后,我们可以看一个数据模型设计的典型过程:
●确定业务过程:根据业务场景以及可用数据源确定数据可以从哪些角度刻画业务。
●声明粒度:根据应用场景,确定数据的汇总粒度。在应用场景多变的情况下,一般尽可能的用最细的粒度进行刻画,这样可以保证高维度和低维度数据都可以查询到。
●确定维度:根据声明的粒度,定义对应的实体维度。
●确定事实:确认业务需要将哪些数据归类到事实表中,维度表只做关联,不做维度数据的查询服务。
当我们遵循上述过程设计出一个数据模型后,我们如何去评价其优劣呢?这里就极度依赖规范去评价每一个数据模型的效果,我们总结了一个好的数据模型应该具有的特点如下:
●分层架构清晰:ODS 层只存原始信息,不做修改;DW 层面向业务过程做指标计算;APP 层要面向应用做建设。
●指标定义可读:数据需要按照一定业务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能量化不同的业务过程。
●模型相对稳定:数据模型分为两类,一类是伴随着创新业务的发展快速迭代的模型,另一类是相对固定的业务过程中用到的数据模型,此类数据模型需要尽快下沉到公共层,形成可复用的核心模型。
●高内聚低耦合:主题内数据模型高内聚,主题间数据模型低耦合,避免在一个模型中耦合其他业务的指标。
●持续建设:数据模型需要持续建设,保证数据能够适应不断变化的业务需求。
了解以上评价规则,可以指导我们去解决实际数据仓库建设中遇到的各类问题。例如数仓建设中一个常见的问题是建立一个宽表还是多个维表?从规范化的角度来讲,建设多个维度表可以减少数据的冗余,而且也便于模型的扩展。从反规范化的角度来讲,业务需求方希望尽量少做表关联,因此宽表使用起来会更方便。我们在实践过程中,对于低层级、跨主题的数据一般是建立多个维度表,对于高层级、主题内的数据可以建立宽表方便使用。在部分情况下会同时存储两种方式,通过更多的空间占用换取时间响应的提高。
03数据管理和开发平台
3.1 一体化平台
一个完善的资管数据中台,在功能架构上分为数据存储(数据源)、数据开发运维、数据资产管理和数据服务四层。在熵简数据中台体系化和工具化建设的初期,我们就针对功能架构提出了三点要求:
●一体化:集成数据智能全链路,用户可以在一体化平台上完成数据开发、运维、管理并对上层应用提供服务;
●模块化:一体化平台中的各模块相互解耦,用户既可以从零开始搭建数据中台,也可以兼容已有的、在脚本中沉淀的数据开发逻辑;
●可视化:数据开发、运维、管理可以通过可视化配置的方式完成,降低中台搭建成本。
为此,熵简数据团队打造了 AirWorks 一体化数据平台。AirWorks 平台致力于打造一个具备可视化开发能力,包含数据挖掘、分析、建模、应用、管理全生命周期的大数据研发平台,拥有数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。它是一个低代码、可视化数据融合系统、科学建模系统,也是一个中心化的数据仓库 ,同时对外提供统一分发的数据服务。具体而言,AirWorks 平台提供了如下功能模块:
●数据集成:底层数据源之间的数据融合打通;
●数据开发:流批处理、机器学习等多引擎任务的可视化开发,封装了一些经典场景的模型算子,业务人员也可以独立完成数据开发任务或机器学习建模任务,构建复杂的任务调度;
●数据资产管理:统一管理整个平台的数据表、API 等各类数据资产,提供强大的数据搜索、数据类目、数据血缘等能力。
●数据服务:零代码快速生成 Serverless 化的 API;
●商业智能分析:通过拖拽方式对数据进行分析,可以快速形成图表、报告和大屏。
3.2 关键技术挑战
用户透明的计算引擎混排
数据中台的搭建往往需要用到不同的数据计算引擎,例如 Spark、Flink、Python、R、sql 等。传统的数据中台建设依托于工程师的代码能力,在不同的数据层级,针对不同的应用场景和数据特性去选择最合适的计算引擎。
在 AirWorks 一体化平台中,我们希望能够提供用户透明的计算引擎混排,能够兼容市面上主流的计算引擎。每一个计算引擎背后的计算逻辑被封装成一个个“算子”,对于不同特性的计算任务,用户可以挑选合适的算子去完成,算子与算子之间的交互和数据流动不需要用户关心。当然,平台也需要提供各类自定义算子去帮助用户完成特定场景下的计算任务。
存算分离架构
在大数据量级下,数据中台里的很多计算任务是需要通过分布式计算完成的。在分布式计算和存算分离的架构下,平台必然要引入集中式的存储为之服务。熵简技术团队在多方对比之后,挑选了对象存储来满足存算分离的架构。对象存储既能很好的满足大数据计算的存储需求,又能够兼容公有云、私有云、混合云多种部署方式。在 AirWorks 平台中,对象存储同时承担了中心化数据仓库和算子中间结果的存储。
异构数据量级的智能调度和均衡管理
在资管数据中台的应用场景中,用户既会处理小数据量级数据,例如各种已经结构化的时序指标,也会处理海量数据,例如各种互联网公开的另类数据。一体化平台需要做到异构数据量级的智能调度和均衡管理,实现资源动态分配,屏蔽大数据难题,对于小数据和大数据做到统一均衡管理。
数据模型的可视化建模和管理
在本文的上篇中介绍了资管数据中台的数据模型规范。在平台中需要将这些数据模型规范落地,实现数据目录、数据血缘、数据治理、数据分层等功能。设计一个交互友好的数据资产管理模块是一体化平台的关键技术挑战。
3.3 主要技术方案
AirWorks 数据平台的整体技术架构如下图所示。平台以数据为基础,以数据管理系统、任务执行调度系统、工作流管理系统、权限管理系统为核心,提供数据开发(项目管理、工作台、运维调度)、数据中心(数据集市、数据同步、数据资产管理)、数据应用(API服务、BI服务)三大类功能,覆盖数据汇聚、研发、治理、服务等多种功能的应用。
数据集成
一体化平台提供了异构数据存储的能力,提供丰富的数据源支持,涵盖主流数据源:
●Mysql / Oracle / MongoDB / SQLServer
●Oss/S3
●ElasticSearch
●CSV / Excel
●AirWorks数据中心
针对Excel格式,平台根据金融企业的场景,兼容多种 Excel字段类型,多Sheet页批量导入。平台提供了增量/全量两种同步方式,对数据表支持追加,更新,覆盖操作。数据集成和工作流开发套件融合,完全复用工作流的各类调度、监控、运维能力。
数据开发
平台提供了可视化的无代码编程套件,可以低学习成本地完成数据开发任务,支持一系列 Scala 的函数,同时支持 Python、R 等多语言自定义算子。实践过程中,业务人员可以进行无代码开发,开发人员可以使用 R、Python、Scala 进行开发,兼容上述的混编工作流。用户可以从业务视角整体管理工作流,将同类工作流组织为项目。工作流的每次运行会保留节点中间结果,方便运行回滚操作。整个数据开发过程不需要关注底层优化点,AirWorks 平台已经对工作流的运行进行了优化,让数据开发人员更专注于业务本身。
数据倾斜优化
数据倾斜指的是并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个Partition)的数据显著多于其它部分,使该部分的处理速度成为整个数据集处理的瓶颈。平台处理数据时,先通过数据采样和样本分析了解数据分布情况来识别数据倾斜,拆分高度聚集的 Key 值来进行优化,为数据量特别大的 Key 增加随机前/后缀,原来 Key 相同的数据变为 Key 不相同的数据,使倾斜的数据集分散到不同的 Task 中,彻底解决数据倾斜问题。
多租户管理
多用户共同使用资源时,会出现单用户挤占过多的资源,使其他用户无法使用的情况。AirWorks 平台使用了多租户管理机制,分离调度任务和用户执行任务,用户资源优先满足,限制单算子最高资源使用量,保证多租户运行正常。
为了尽量提高资源利用率,Spark 的执行器被调整为统一的1核1G配置。为了保证在这样的资源下可以正常执行任务,平台从输入算子开始就对数据进行了合理的分片,先采用数据采样的方式对数据源的数据行进行大小预估,再分片摄入数据,保证每一片的数据都在内存可控范围。
多计算引擎无缝整合
工作流设计的最小执行和配置粒度为算子。不同的算子可以使用不同的计算引擎。混编工作流进行数据开发工作。AirWorks 通过 Spark 对 Python、R、Scala 三种语言的支持,进行资源统一分配使用,完整发挥各语言优势。同时通过集成 Jupyter Notebook 实现算子交互式运行。当数据开发任务还处于原型开发阶段时,用户可以按独立单元的形式编写代码,这些单元是独立执行的。AirWorks 通过 Jupyter Hub 管理不同用户间的运行环境,只需要单击自定义算子,就可以简单的开启数据探索之旅。
这套框架可以用来对于 Spark、Flink、Python、Sql 不同的计算集群进行高效率调度,实现 TB 级的离线和流式一体的计算能力,已经累计为数十家金融机构完成2.2PB 级的数据融合和分析服务。
另外,加入了自研数据采样+智能调度,有效提升资源动态分配效率,屏蔽大数据难题,对于小数据和大数据做到统一均衡管理。相对多个现有的开源框架,资源利用率提升 50% 以上;
数据资产管理
AirWorks 使用全程可视化操作,打通了数据资产流转的各个环节,快速解决不同的数据治理场景。平台使用关系型数据库作为元数据存储,通过在数据源、数据输出、数据开发任务内部进行信息打点,完成全面自动的元数据管理和直观清晰的数据资产管理。用户利用数据资产管理模块可以完成如下任务:
●管理表名、字段名,沉淀数据模型设计规范;
●数据模型的分层化管理和不同角色的目录化管理;
●通过分析数据资产之间的关系,统一数仓主数据;
●便捷地管理数据血缘,动态地了解数据怎么产生、在被谁使用、进行了什么操作,数据表中的字段来源于哪张表,又后续影响了哪些表;
●进行资产权限管理,保证了不同层级的用户可以查询不同的数据。对同一数据表,可以已划分字段级别权限给不同的用户,完成数据分级管理;
●平台提供对隐私数据的加密、模糊化处理,用于保证数据的安全性。
04数据服务体系
AirWorks 数据平台中内嵌了一个中心化数据仓库。在非对外服务的数据层中,平台适数据量大小使用关系型数据库和 Hive 来进行数据存储。但是在 APP 数据层,存放的是直接提供给数据产品和数据分析使用的数据,这层的数据一般都是大宽表,由于涉及到非联表的即席查询,需要使用 OLAP 引擎中供线上系统使用。
AirWorks 数据平台当前提供了数据 API 服务和 BI 服务两种方式作为对外的数据出口。一方面业务人员可以利用 BI 服务实现交互性探索分析,另外一方面上层应用可以直接通过 API 的方式从数据集市层直接取数。
BI 服务
BI 模块不仅仅是图表的生成展示,同时也是数据分析的一部分。数据开发部分为数据的预处理打好了一定的基础,在上层就可以通过拖拽的方式完成构建图表的工作。AirWorks 的 BI 模块提供了很强的交互能力和多变的查询模式,页面拖拽的方式能够给业务人员展示不同的指标,贴合数据分析的场景。一方面业务人员可以通过 BI 服务直接探索业务数据,另外一方面应用开发人员可以通过 BI 服务了解上层数据的特性,为应用层接入数据中台做好前期准备工作。
API 服务:亚秒下亿级别的数据服务能力
数据 API 服务提供了统一的数据服务总线,可以让用户低成本、快速发布 API 服务。用户操作时只需要关注 API 本身的查询逻辑,无需关心运行环境等基础设施。数据服务会准备好计算资源,并支持弹性扩展,实现低运维成本。用户可以在平台上进行接口测试调用,在完成 API 上线后,平台还能自动生成 API 文档。平台通过埋点的方式提供了统计面板,可以监测各接口的状态和每月接口的使用情况。
在这一层 OLAP 计算引擎的技术选型上,熵简技术团队也经历了从关系型数据库,换到 Druid,再到现在的 ClickHouse 渐进的过程。当前 AirWorks 数据平台使用 ClickHouse 作为 APP 层的查询引擎,支持了 API 服务和 BI 服务。ClickHouse 是一个列式数据库,它在大数据领域没有走 Hadoop 生态,而是采用 Local attached storage 作为存储,整个 IO 没有 Hadoop 生态的局限性。在生产环境中它可以应用到相当大的规模,因为它的线性扩展能力和可靠性保障能够原生支持 Shard + Replication 这种解决方案。
基于此引擎,数据 API 层对于亿级别的数据量提供压秒级别的实时分析能力,向 RMS、PMS 等上层业务系统提供统一高实时的大数据总线服务。
05结语
熵简数据团队通过打造 AirWorks 这样一个一体化、可视化的数据平台,覆盖数据中台的全生命周期管理。
一体化平台提供了强大的数据基础能力,满足了数仓的所有基础需求,支持常见数据源的数据同步,支持历史数据的批量/增量同步,支持亿级别大数据量的ETL数据加工。业务人员可以快速掌握可视化开发,脱离工程师实现自助式数据分析。数据资产管理方面,平台可以实现以用户为单位进行统一的资源权限管控;对各种资源,数据表、数据分析工作流、数据连接、调度资源进行管理。在数据应用方面,平台支持低成本构建 API 服务,帮助技术人员告别接口开发、鉴权开发,快速完成 API 的生成。同时业务人员仅需要拖拽,就可以完成自定义的图表生成,帮助用户进行数据的可视化表达。
目前,熵简科技以资管数据仓库为基础,以 AirWorks 系统为一体化管理平台,已经为多家金融资管机构构建起企业级的数据中台体系,实现了从数据存储、数据资产管理、数据开发运维到数据服务的全链路场景,助力机构实现数字化转型。
关于熵简
熵简科技是国内领先的数据智能服务商,通过大数据泛采平台、数据中台、算法中台、知识中台这四大核心技术体系,以及丰富的行业落地案例,为企业数字化转型提供一站式的数据智能综合解决方案与应用平台,让数据和算法真正成为驱动企业发展的底层生产力。“熵”是热力学中描述系统混沌程度的度量,“熵简”寓意使用智能化的方式简化业务数据化、数据资产化的复杂程度。
了解更多,请扫描下方二维码关注公众号「熵简科技」
标签:探索,数据源,平台,数据仓库,资管,中台,维度,数据,数据模型 来源: https://blog.csdn.net/shangjiankeji/article/details/121142721