其他分享
首页 > 其他分享> > 回首数据平台建设心路,探索数据架构新方向

回首数据平台建设心路,探索数据架构新方向

作者:互联网

回首数据平台建设心路,探索数据架构新方向

一、引言

本人钱包里有几百块一直没有花出去的现金,在钱包中睡了大概有几个月,不是我这几个月没花钱,而是因为这几个月身边结婚的少了,礼金——现金于我的最大使用场景。尤其今年新冠肺炎疫情的发生,培养了人们诸多新型消费习惯,无接触购物、直播带货、社区团购等新渠道、新服务不断涌现。随着宽带基础设施的完善、5G时代的到来,在线娱乐、在线教育、在线医疗、短视频直播等接受度越来越高,但现金支付的场景越来越少,几乎日常生活中全部的支付场景已经线上化,数字化的时代已经悄然来临。作为一个大数据从业者,我主要从事着数据平台开发的工作,大数据平台该如何建设和发展的问题经常会让我陷入沉思,这里从个人角度出发,分享我对数据平台与数据架构的浅薄观点。

二、对平台的简单认识

(一)关于数据集成

数据集成指的是将多种、多样的数据进行汇聚的一种行为,大数据中我们常用ETL来进行更加详细的表达这种行为。ETL是每个大数据平台不可或缺的一部分,宗旨一般都是为企业提供稳定、可靠、安全的数据传输服务,多年前以DataX为代表的离线数据同步工具已经具备了多源异构数据同步能力,而近年来离线存储体系并没有发生大面积的更迭,所以如果一个ETL产品的定位是离线数据同步,那经过这几年的沉淀和发展其产品应该已经足够成熟。

但是技术的推陈出新总是让人措手不及,当前阶段新的业务需求和下游技术的发展都对更具时效性的ETL提出了诉求,比如需要目标端对接更多管道类大数据组件(如:Kafka、Pulsar等)以及源头端需要适配更多接数据库及组件(如:Canal、Databus、Maxwell、Debezium等),而下一阶段将数据“入湖上云”更是一个触手可及的市场,可以肯定的是各大云厂商会带着自己的迁移工具到企业中去,而一个横向的、跨云的数据同步服务工具也会有市场空间的。综上来讲,一个离线数据同步产品如果想快速响应新的诉求并抓住下一阶段的市场机会,一次系统架构调整相比较于在现有产品上添砖加瓦应该是更具有意义的,或者说一个全新的技术体系产品也可能是更好的选择。

在这里插入图片描述

(二)更好的离线计算

根据专家估计,随着近年来数据规模呈几何级数高速增长,到2030年需要处理的数据量会大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”,由此引起的整个网络、存储、计算、传输、结构等方面的变革我们暂且不展开。本文我们将讨论内容限定为企业内部,那么从谷歌发布大数据的三篇文论至今,大数据的存储和计算的技术已经很成熟,现有的计算框架足以应对当前的计算需求,但,也只是应对。企业级计算能力的前提下,如何更好的将金融、证券、保险等行业的跑批耗时大幅度的压缩,我认为可以从以下三方面入手:

(三)离线&实时&AI

有一句话是:“实时计算不会取代离线计算”,谈“替换”需要太大的勇气,更何况在一些传统数据架构企业或业绩导向企业,实时计算更多的是在扮演一些体验优化、离线计算功能补充的角色。当前的应用深度和企业数据架构并不利于使实时计算成为一个业务驱动引擎。而在诸如滴滴、顺丰等互联网与物流企业中,他们对实时计算有天然的需求,便捷的实时数据获取,使得实时计算平台可以实现大量的低延时业务的需求;阿里巴巴内部已经基于实时计算引擎(Flink)改造出了一个通用算法平台(Alink),可以看到的是在不久的未来,离线、实时、AI一定是朝着融合的方向发展。这里我们可以先看一下目前实时计算的架构图,如下:

在这里插入图片描述
相对低成本的实时数据获取是实时计算发展的基础,得益于Flink技术的繁荣发展,未来的实时计算将会成为一座桥梁,一边连接传统的离线计算一边探索与AI的融合,简单罗列如下:

在这里插入图片描述

三、平台发展新机遇

如今塞班、黑莓纷纷退出历史舞台,三星手机的销量也今非昔比。这么多年技术领域不变的是一直在变化,而在变的只是变化周期和速度。2C或靠平台运营来实现公司主要收入的商业模式更容易收到技术革新的冲击或带动。在数字化转型的大趋势下,以推动企业现有架构变革或希望通过新技术、新思路来丰富业务增长点的探索显得迫切而有必要。所以在渠道拓展方面对新技术的嗅探、新产品的孵化、新的对外合作模式的创新等,都是一些具体的方式;在技术方面进行探索,最大化的通过技术的变革来创新业务模式、升华服务质量,比如:

四、平台建设挑战

建设并非因为要建设而建设,建设是为了更好的解决需求、完成目标,而平台的不断演进可以更好的服务现有需求并开创新的可能。

(一)数据开发全链路

对大数据平台而言,数据的抽取、存储、加工、管理、开放运营等是大数据的核心能力,数据开发平台等系统的投产极大程度降低了数据的加工、使用门槛,满足了基本的数据研发需要,但是在元数据管理、数据研发规范性、数据质量把关、安全审计等治理方面仍然存在较大的改进空间。通过更接下来的平台建设进一步提升易用性、提升数据稳定性、提高数据质量和数据安全、增强数据调度能力,进而在数据融合加工基础上进一步的完善数据治理体系,从而实现更好的数据开放共享,以便更快捷的支撑应用系统的建设和成长显得尤为重要。

在这里插入图片描述

(二)数据“超市”建设

数据能说话、数据助决策。大企业中对数据的诉求和使用好比家庭购物买菜,菜市场和超市都可以买菜,但是菜市场具有占地面积大、对周围交通及环境影响大的特点,而超市则显得比较灵活和便捷,能够更好的适应城区。目前很多业务场景下对数据的使用好像在菜市场买菜,需要接触每个摊位主(数据负责人/提数人员/……),分别沟通来买菜(提数)并逐个结算。而超市则提供了分区、分类、分级的产品供应,并实现了自由选择、统一结算的服务,并且超市往往对顾客隔离了材料加工、包装(数据加工)的过程,更好的购物环境、更优质的服务、更快捷的体验。所以建设好我们的数据超市不但是对我们数据的梳理和分类,实现数据运营也将会把我们的数据服务能力提升到一个新的台阶,给数据使用人员一种更好的使用体验。

(三)换种角度看产品

(四)建设数据联邦

“众人拾柴火焰高”,以一个企业内部的数据积累来进行用户行为属性判断、标签加工等事情还是略显薄弱,如果能够实现通过获取外部数据、三方行为数据的使用,通过全天候、多维度的行为分析来最终判定一个主体的属性和标签,将会有利于更好的对主体把控。通过数据上云,实现行业云内数据的共享,实现本地数据与云上数据的联邦。外部产品矩阵、外部数据联邦等等,目的就是对内部提供更加优质的服务,实现更多、更好的产品孵化、更精确的客户定位、赋能业务、最终实现更好的实现数字化转型。

五、平台未来展望

中原银行经过4年的大数据平台建设,已经从原始的人海战术实现了大数据系统的平台化,这很大程度上要归功于我们在大数据平台建设的轻装上阵和极有魄力的领导力,回顾过去展望未来,大数据平台的演进之路大致如下:
在这里插入图片描述
在2020年末2021伊始的时间节点,结合业界发展趋势,我认为下一代的大数据平台发展将会形成人工智能和大数据的双引擎局面,对人工智能而言则是需要探索与大数据的融合,于大数据而言,除了与人工智能的融合外也要快速实现新一代的数据存储、计算、使用等方面的变革,基于这个想法大数据平台建设架构大致如下:

在这里插入图片描述
最后,希望大数据平台每年都有更好的呈现,每一次阵痛的变革都是为了坚守最原始的初心。

作者:思甜,数据银行部

标签:心路,计算,平台,离线,回首,实时,产品,数据
来源: https://blog.csdn.net/zybank_IT/article/details/111282672