【速记】山西证券 林永峰:山西证券大数据智能中心助力科技证券构建
作者:互联网
01
数据工作常见问题
各位领导,各位同仁大家好。首先非常感谢星环科技给了我们这样一个机会,能够去展示一下大数据在金融行业,特别在我们证券行业的一个落地的实践。我今天讲的主要内容是山西证券大数据和人工智能的应用,以及山西证券构建科技证券的过程。
我先介绍一下我们这个部门。今年是山西证券成立三十周年,山西证券是一个历史比较悠久的证券公司,也是国内第一批拿到证券牌照从事证券投资业务的一个证券公司,现在已经发展成全国性的证券公司。科技金融部今年3月份成立,主要的团队成员都来自于BAT,国内大型的券商,以及一些一流的大数据公司。当然还有一些像我的小师弟、小师妹们是从清华大学过来的应届毕业生。假如在座的各位,听了后面的分享内容,对我们做的技术或者这块工作比较感兴趣的话,欢迎各位有识之士来加入我们这,现在我们工作地点是在深圳。
我们今天分享过程主要讲三个方面,首先讲一下我们在数据工作中遇到的问题。重点讲一下我们搭建大数据智能中心的过程,我会特别分享一下为什么这个东西叫大数据智能中心,而不是叫大数据中心。这里先声明一下,主要考虑到之前的领导和嘉宾已经介绍整个行业和大数据的发展历程。所以我这里讲的更多是,在我们实际工作中,在大数据平台落地的过程当中,我们会碰到什么问题,以及我们解决方案是什么。
我们先讲一下数据工作中遇到的一些问题。因为数据工作的链条非常长,我们主要来讲在我们搭建一个大数据中心的时候,以及随着大数据中心逐步去支撑整个公司业务的时候,数据需求越来越多,这时候我们会碰到怎样的问题。首先我们可以看到,对于一个公司来说,多种数据库是并存的,而且很多业务系统都是烟囱式的,所以数据存储分散,交叉使用非常不便。我们在公司中常碰到数据储存格式,比如SQL server,Oracle,MySQL,文本,json。有些先进一点的系统,比如会用上HDFS的格式。这样的情况下,希望对业务做一个比较深入的分析,以及交叉使用是非常不方便的。
第二是数据处理过程当中缺乏统一的规范,我们每个技术人员对数据的理解和对需求理解都是不一样,而且处理方法不一致引起歧义,且方法难以复用和扩展。即使单个技术人员他的技术能力非常强,假如没有一套统一的规范的话,这个技术的能力很难在团队内复用,很难扩展到做别的需求的过程当中。
第三点在券商里面,或者传统企业都非常常见,就是单点开发问题。文档记录不完善,数据知识共享不便,导致重复造轮子及交接不便。也就是说在解决业务,一个人从头做到尾,解决需求的过程中也没法留下一些可用的中间结果,给团队其他同事复用,其他类似需求,如果换个人做,几乎就是从头做一遍。
最后是任务调度,在大数据中心建设好一段实践后,任务数量上来了,如何安排新任务的执行,需要对已有任务非常熟悉,才能保证系统不会崩溃,不会锁表,非常劳心费神。
我们对以上问题想了一些解决方案。首先我们建立一个统一的数据接入和存储的方案,这些数据都集中起来用。我们提供各种各样的数据接入的接口,把各种格式的数据都放进来。这样建立一个自动化的数据处理框架,能够快速扩展作用。另外就是我刚才讲的,建立一个数据管理平台,做一个数据工作的统一入口,可以避免单点开发的问题。让团队成员站好自己的岗位,他的岗位的输出是下一个岗位的有效的输入。通过这个平台的积累工作成果,同时能够做到知识共享。第三,我们建立一个智能化自适应的一个任务调度,再加上一个强有力的数据监控,能够让这个系统根据当前情况,去自适应这个环境,让它去分析我哪个数据要前转哪个数据要后转。监控可以帮助我们的人员,能够快速发现问题和定位问题。
02
大数据智能中心
所谓的大数据智能中心,主要由三个模块组成。它是一个以业务需求为导向,即数据资产、智能数据平台和智能数据应用一体化的大数据解决方案。简单的来说,当需求进来之后,详细来说就是智能数据平台通过数据字典,迅速从数据资产里把数据提出来,在一个智能的工作间做各种运用的迅速组装。通过这种方式,能够使得数据运用可以灵活去组装。由于这个是一个完全自动化的形式,所以就使得这个数据服务是稳定而高效的,整个调度系统有一个学习和进化的功能。
为什么要这么做?我们认为整个大数据输出目前可以分三个情况。一个是给业务赋能,然后是给我们的客户赋能,第三是给公司内部管理赋能。搭建这样一个大数据智能中心的目的,主要是为了我们的业务应用能够快速探索和投产。
下面会详细讲讲这三块,首先我们要说的是数据资产是整个系统的基石,数据资产是生产数据经过清洗、加工,然后再提炼出来的一个结果。到目前为止,我们整个系统数据有超过400T的存储容量。大概三月开始到现在八月,五个月时间内我们开始逐步去处理整个公司的数据,现在已经有超过5T的数据进入Hadoop系统。我们每天的数据存储增量大概是20T,对接20多个业务系统。我们围绕客户建立数据指标。我们数据源有来自于内部和外部的。内部有客户的数据,用户数据和资讯数据等等,外部数据是来自于新闻资讯等。
另外,智能数据平台是我们整个系统的计算存储核心。数据的来源,从柜台系统、业务系统、还有子公司的数据库,所有的数据先汇入进来,进入我们数据银行。进入数据银行后做数据的生命周期管理,这里要感谢星环提供的一些产品,给我们提供了比较强大的算力。我们在离线计算用了Inceptor,在线计算用了Slipstream,算法这块用了Sophon,这是我们主要用到三个星环产品。
我想讲一下我的体会,我们的团队是从腾讯、百度这种互联网公司转做金融数据服务的,我们之前都是用开源的Hadoop。后来我们跟星环接触之后,在实施的过程中给我们真切的感受,就是省了我们很多事情。我们不需要去探索底层的性能,如何去调优、设置,星环都比较有专业的工程师根据本地环境去配置好,使得整个系统,就是能够高效稳定的运行。另外我们自己针对Inceptor、Slipstream还有Sophon做了一些接口的调度,我们自己做了一点开发,去和我们的智能调度系统进行配合。星环的工作流调度工具Workflow跟我们的调度系统应该是各有千秋,我个人感觉我们自己的调度系统更适合山西证券,所以我们就没用他们的Workflow产品。
通过计算之后,数据进入我们的数据集市跟模型工厂。这块就是刚才我们提到的数据资产,我们把模型按照各个模块进行存放,根据模型形成了我们各种集市,用户集市、客户集市、产品集市、风控集市。做完数据资产以后,我们要统一对外接入,不可能让外部系统去直接接入到我们数据资产层。我们提供丰富的数据的接口和数据字典,不管是业务人员还是开发人员,都能够比较顺利接入到底层的数据。同时提供一个快速查询,这里也用了一个星环的产品,用了Search替代了原来使用的ES。
这上面是我们业务应用,主要涉及到自助查询、业务大屏、知识图谱等。还有我们大数据产品的数据门户跟画像。以及给客户服务一个智能投顾、量化策略等将来要打造的一块工作。最右边是我们数据治理体系,包括接口管理,元数据管理,调度管理等等。
最后介绍智能数据应用,是我们提到刚才三类赋能的基础。我们这个应用都是在智能工作间里面产生的,比如数据门库、用户画像、运营指标体系等等。这些应用是通过我们灵活的数据字典、自动化建模工具、任务智能调度系统,达到了代码字典化、开发运营化和调度系统自主进化这样一个形式。我们的智能工作间,是一个坚持去中心化的,完全从底层到上层进行构建。需求导向促进我们数据字典自动的进化,而数据字典的进化就促进任务调度系统的进化。
我们的需求进来,进到这样一个工作间之后,首先进入数据字典的配置,数据字典承载了所有的代码,是我们工作的入口。大家有新的任务只要去配置一下资源数据字典,我们的工具会自动转入一个代码,形成字典里的一张表。这张表是支持自动建模的工具的。同样我们有新的统计任务,配置完之后这个任务就自动运行。这个流程可以降低我们专业人员一个技术门槛,这是一方面。第二方面使得我们底层代码池非常健壮,这个系统会比较稳定。这套通过智能调度的方法,通过数据字典也好,我们每个任务也好,它都是一个执行非常简单的小任务。
由于考虑到在场大多数都是技术人员,还是想把大数据智能中心建设要点讲一下。第一个要点就是数据字典,数据字典链接业务需求和底层代码,刚才我们已经强调很多次。为什么这么搞,实际上大家本质上都是比较懒的,我们不希望去做很低效的事情。因为本质懒,所以我们就会想如何去提高工作效率以及团队协作的效率。当然也考虑到其他的问题,比如人员流动,大家都知道互联网人员流动非常快。好一点的情况,交接文章写的比较清楚,不好的话拍拍屁股就走了。还有一个情况,很久之前自己写的一段代码,因为业务需要要改,但又不记得当初怎么写的,那真是很抓狂的一件事情。
为了解决这些问题,我们用数据字典将业务指标和底层代码精准衔接,在平台web页面上改字典就等于改代码。有好几个好处:工作效率高,底层代码风格一致,底层代码健壮,系统运行稳定,也有利于知识传承。
第二点智能调度系统,有一个自主学习和进化的能力。还是和上一点一样的初衷,大家觉得做调度干嘛做的那么劳心费神,为什么不让这个系统自己去调度。还有一些情况,我相信做实操的朋友都应该碰到。比如一个新员工,加了一些效率比较低的查询,整个报表都出不来了。我们想了一个办法,让机器自己决定这个计算路径,让系统去自适应环境,每天计算标准都是不一样的。实现的方法就是小模块功能简单化,让这个系统自适应这个环境。
我们再看下一张,会对我刚才说的话理解更清楚一点。我为什么说,系统和环境是自适用的,能够达到一个资源的最优。我们可以看一个非常简单的例子,增加新需求,不一定会增强计算路径,去延长整个系统所有指标计算的一个时间。比如我要算四个指标,在系统原先的路径可能是这样的,假如我们新加了第五个指标进来,系统发现可以这样计算,这样一条链路有可能比前面的方法更优。它会通过一些简单的方式,去找到一个最好的计算方法,所以我们这个系统每天计算的顺序是不一样的。
03
大数据应用介绍
后面讲一下我们应用,刚才也提到这些应用,目前正在实施当中。回到前面这句话,得力于我们前面那个系统,技术已经给我们分析人员赋能。所以我们分析人员可以花很多精力站在业务的角度,站在产品的角度去思考,这是我们思考的结果。我们将大数据运用在券商行业,可以分为这几类。
第一是为业务赋能,主要是提升工作的效率,我们通过这些报表、各种分析体系,去帮业务人员更高效的做业务扩展。第二是给客户赋能,这主要利用大数据和智能算法,打造专业智能客户投资工具。比如说交易服务、商业服务、社区服务、智能客服等。第三块是管理赋能,让我们的决策是数据化的,建立一个科学管理的体系,这主要是以我们现在推荐产品风控平台为例。
第一个讲到数据可视化,数据可视化强调做一个透明化的服务,是数据透明服务的一个基础,帮助业务人员发现问题和定位问题。这是我们正在实施的,想打造的一个可视化的平台。能够营造一个分层次多端的数据触达,能够让不同的数据消费者都有一个便捷触达的方式,同时我们会更多考虑多端安全策略的问题。
然后是用户画像,用户画像系统是客户服务体系的一个重要的环节。它要跟前面可视化门户相结合,需要具备实用和传播的特性。我们主要解决方案是首先将用户做数据化,做完数据化通过业务规则或模型去产生业务标签,然后去做预测。比如做潜在开户预测和流失客户预测。这是做个体的画像,还要做群体画像,要对我们的业务非常熟,通过业务的切分去做业务群体画像。利用这样一个系统,来做个体客户画像和群体客户画像,配合运营的策略和产品的画像,能够实现精准营销和个性化推荐。
最后对客户,刚才是分了交易服务和专业服务。交易服务就是结合客户投资整个过程,去打造交易前、中、后的投资服务。专业服务就是智能投顾。社区服务包括信息比赛,投教类小游戏等。目前在券商互联网化已经陷入一个发展瓶颈区,所以下一个突破点很有可能在投教类与前面两个服务结合。
最后介绍一下智能客服,智能客服这一块是人工智能应用最广泛一个场景。它不光可以用在我们金融行业,还可以用到各种各样行业。所以有很多供应商都在做,在这一块我们基本上是以供应商去主导这样一些工作。再一个就是全面风控平台,大家做风控系统可能知道,对各个系统都比较烟囱化。我们提出一个以大数据为中心,用科学的治理去统一管理风控。通过这样一个组织架构,所有的用户是统一的用户管理。
标签:林永峰,一个,系统,山西,智能,证券,数据,我们,字典 来源: https://blog.51cto.com/u_15127640/2774592