巨杉湖仓一体技术解读|多模数据的融合管理
作者:互联网
SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。当中,多模数据的融合管理,以及非结构化数据的管理能力是个关键。
IDC研究报告显示,到2024年,全球数据总量将超过145ZB,且每年以22%的速度持续增长。其中,非结构化数据的规模尤其明显。在金融银行业中,对非结构化数据的利用,已经成为提高业务效率和提升盈利能力的有效方法。
随着移动互联网的飞速发展和企业数字化转型的深入,金融银行业的应用场景不断丰富,非结构化数据已经深入到日常业务办理的各个环节中并发挥重要作用。
因此,企业内容管理平台,被赋予了新的使命:
- 首先,要服务于各业务系统,面向客户提供即时在线、多样化、高效率的数据服务,提升业务办理效率;
- 其次,面对金融业日益严格的政策法规约束,要面向监管,提供数据的长周期保存,为事后监督、审计、司法查询等提供数据基础,确保业务安全合规;
- 再者,数字化转型中,内容数据不再是静态的文件。对内容数据进行有效的集中整合、分类治理、标签化管理,再结合OCR、机器学习算法对比分析后,内容数据将具备更多元化的业务属性,为集中风控、经营决策等提供丰富的信息输入,从而盘活数据资产的潜在价值。
这就对内容管理平台底层的数据存储架构,提出了更高的要求:
- 统一标准,集中存储,全量在线:例如某省农信社,有近百个系统产生非结构化数据,如信用卡、信贷、渠道、柜面、国结等,一方面数据规格差异较大(KB~百MB),一方面,除了非结构化文件本身,还需要实现元数据的存储和管理(如标签、业务属性等)。企业希望采用简洁、易于维护、具备高可用及容灾能力的数据存储架构,提供统一访问接口,保持全量数据即时在线,从而降低技术复杂度,提升开发效率。
- 高性能,全面对客:海量数据迅速积累的同时,用户对于业务体验的要求与日俱增。满足高并发、低延时的业务访问请求,对数据存储架构的性能指标提出了严峻的考验。例如银行的无人营业网点,要求用户实时上传身份证、签字页等扫描件,并为用户身份识别、信贷审核等环节提供高频的实时调阅。
- 数据管理:非结构化数据具有种类多、容量大的特点,是企业资源消耗的“大户”,如何设计精细化的内容数据管理策略,如生命周期管理、版本管理、数据分层治理、租户管理等,来降低维护成本,提升数据质量,也成为当前非结构化数据应用领域的热点话题。
传统数据存储架构的局限性
一直以来,企业内容管理系统以国外ECM软件为主流, 典型产品如IBM CM、Filenet及EMC Documentum等,其底层均采用集中式数据存储架构。该架构无论从性能、扩展性,还是维护成本方面,遇到了严峻的挑战,已经无法适应新时代内容数据的管理需求。
- 架构复杂 & 成本高昂
- 传统内容管理解决方案的底层数据架构,有两套技术来支撑:一套文件存储(NAS或集中式阵列)来管理非结构化文件,一套关系型数据库(如DB2/Oracle等)实现元数据管理、标签化管理。技术架构的复杂性,导致管理难度和软硬件维护成本居高不下。
- 并发性、扩展性局限
- 集中式数据存储架构,其性能和容量均存在明显瓶颈,更缺乏灵活的水平伸缩能力,无法满足爆炸性增长的业务需求和数据管理需求。
- 高可用、容灾能力不足
- 随着非结构化数据开始发挥更大的作用,内容管理平台的重要级别也不断提升。在监管要求下,其业务连续性、容灾能力要求越来越高。以往由两套技术(数据库+文件存储)实现的容灾方案,切换时间长,也无法实现绝对的数据一致,必然达不到更高等级的RTO/RPO要求。
此外,也有国内开发商采用『关系型数据库+对象存储』方案,来构建内容管理系统,例如『MySQL+Ceph及其衍生品』。相比于前一种方案,存储容量和扩展性得以增强,成本有所降低。但同样无法解决复杂的技术栈带来的学习成本高、难于维护的问题。
巨杉数据库-多模数据湖方案
巨杉数据库深耕金融银行业,聚焦于从数据湖到湖仓一体的技术架构,针对业界对海量非结构化数据存储管理的需求,提出多模数据湖技术方案。
多模数据湖是一种全量、即时使用、高性能的一站式数据存储方案。它强调采用多模、高扩展的分布式数据库,作为内容管理平台的存储底座,实现各类数据的统一存储(结构化、非结构化、半结构化)。通过丰富、灵活的访问接口,提供多样化的数据处理及服务能力,灵活应对海量非结构化数据的应用场景。
- 基于100%自研的原生分布式架构
- 基于100%自研的巨杉分布式数据库,采用独特的多模架构,集成了内容服务的部分基础模块,以满足企业新业务场景下内容数据管理及服务的多样化需求。
- 引擎级多模 & 丰富的开发接口
- 提供引擎级多模能力,支持结构化、非结构化、半结构化数据的统一存储。同时提供了丰富的开发接口,结构化数据兼容SQL语法,非结构化数据支持S3、原生API、RESTful协议等数据访问接口,可帮助企业降低业务系统的开发难度,提升开发效率。
- 超大容量 & 在线弹性扩容
- 支持百PB级存储容量,支持在线水平扩展,轻松应对数据爆发式增长,可灵活适用于不同规模、不同类型的非结构化数据应用场景。
- 高性能、低成本
- 保障企业内容数据全量在线,支持多策略分区管理及分域缓存,采用资源池化的存储引擎层,提升海量数据管理效率及处理性能,大幅降低硬件及运维成本,TCO只为传统ECM方案的1/3。
- 高可用、容灾
- 采用多副本技术,支持多种级别的容灾部署形态,如同城双中心、同城三中心、两地三中心及三地五中心等,根据实际业务及监管要求,最大程度提升系统可用性和容灾能力,降低RTO/RPO。
- 数据管理
- 数据库层支持冷热数据分层管理、多租户分域管理,支持服务器差异化部署,实现成本与性能兼顾。服务管理层提供多项内容管理特性,支持如数据生命周期管理、权限管理、对象版本控制、历史版本回溯等,进一步提升数据安全性,帮助企业提升数据治理水平。
分类 | 传统ECM方案 | RDBM+对象存储方案 | 巨杉数据库「多模数据湖」方案 |
复杂性 | 高 | 高 | 低 |
运维难度 | 高 | 高 | 低 |
扩展性 | 低 | 中 | 高 |
性能 | 中 | 中 | 高 |
自主可控 | 低 | 中 | 高 |
典型案例
目前,巨杉已经和众多合作伙伴一起,基于「多模数据湖」存储底座,帮助超过100家金融客户,构建全类型内容管理平台,支撑众多的音视频管理、双录系统、柜面无纸化等业务系统。
- 某股份制银行,基于巨杉「多模数据湖」构建的新一代内容管理平台,已完成超过数百个业务系统的接入,如零售信贷、征信、单证、无纸化、会计档案、流程银行等,持续稳定运行超过6年。
- 某省农信内容管理平台,已实现全社近60%的非结构化数据的纳管,接入信用卡、双录、集中作业、信贷、征信、无纸化、国结等多个业务系统,更多系统仍在规划接入中。
典型业务系统如:
- 双录:为全行提供统一的录音、录像数据的存储与管理,服务于理财、代销等系统。
- 信贷:由内容管理平台提供贷前、贷中和贷后各环节的影像留存,实现业务审批全过程无纸化。
- 后督:各网点的纸质业务凭证、报表、票据等非结构化数据,进行扫描/拍照、上传、识别、信息提取,供后督系统对比、查验。
结语
巨杉数据库「多模数据湖」方案,致力于为金融银行业客户解决海量非结构化数据在存储、管理时面临痛点与挑战,实现降低成本、提升效率、提升用户体验的同时,提高数据治理水平,进一步盘活数据资产价值,为业务提供高价值的信息输入。
未来,巨杉将与合作伙伴紧密携手,为企业构建新一代内容管理平台,提供优质的产品、技术服务及生态支持,在数字化转型过程中,共同为客户提升数据价值。
标签:存储,架构,巨杉,管理,结构化,多模,湖仓,数据 来源: https://www.cnblogs.com/sequoiadbsql/p/16664542.html