其他分享
首页 > 其他分享> > ###好好好好##知识图谱在金融风控领域的应用现状

###好好好好##知识图谱在金融风控领域的应用现状

作者:互联网

2020年是个人触碰知识图谱时间最多的一年,技术知识的重新梳理和学习,相关项目的参与,几乎从年初持续到年末。一直想总结知识图谱在金融领域的应用现状,但总是挣不脱一个字:乱。最直观的“乱象”是不同机构对这项技术的称呼五花八门——关联网络、关系图谱、复杂网络、知识图谱。严格来讲它们彼此之间紧密相连又有所区别,本文并不打算严谨地去论证它们的区别和联系,请允许我偷懒采用图谱这个名称来泛指这项技术,就是各位所想的——节点-关系网络。

图谱之乱远不止此。

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。从理论(PPT)角度而言,图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。从理论到实际,中间隔着一条马里亚纳大海沟。为了满足业务需求,现在普遍的做法如下:

梳理数据->设计图谱->构建图谱->社区划分->社群定性->团伙输出

这里有几个值得深入思考的问题:

  1. 图谱的设计是同构图还是异构图
  2. 如果是异构图应该包含哪些实体,如果是同构图,如何定义节点之间的关系
  3. 依赖算法的社区划分,能否得到真实的符合业务需要的社群
  4. 如何进行社群定性 ,定性是否合理
  5. 新数据进来后,如何更新图谱,如何判断新数据的标签结果

除了团伙识别外,知识图谱应用于金融风控的另一个方向是图指标计算。这里体现出图谱应用的又一个乱象:图指标和图的分离。图指标表面看起来和图紧密相关,实际上图指标通常通过大数据平台(hive, spark)而并非利用图数据库计算而来。导致的问题是图指标的结果和图谱的结果不一致。

举例:

假设我们的图谱结构如下:

图指标举例:该账户1度关联账户平均开户天数、该账户2度关联账户平均交易金额、该账户度中心性

上述的指标计算主体都是账户,按照SQL计算的指标结果和图库计算结果是一致的,因为都是以账户为中心关联到其他节点。

但是,业务又提出需求想计算其他主体的图指标,比如:该设备1度关联的IP数量,该设备1度关联账户交易次数等等。现在指标计算主体已经不是账户,如果我们还是按照原来的图谱结构来计算指标,会发现设备1度根本关联不到IP,但是利用SQL从交易流水数据却能算出结果。同一条数据,SQL可以以任意字段group by,然后count其他字段。一种解决的办法是重新设计图谱结构,如下:

理论上这种结构更符合实际情况,账户只有通过设备才能和IP发生联系,但是不论哪种结构都无法完全满足多维度主体的图指标计算,最后的做法只能是图谱归图谱,指标是指标,图谱和指标相割裂。

更为实际的情况远比这棘手,业务需要的指标通常都带有时间窗口的限制,比如过去3天账户1度关联账户交易平均金额、过去7天账户1度关联账户平均交易金额等等,图谱在处理时间窗口数据问题上又显得捉襟见肘。

也许是业界过于神化人工智能的“智能”忽略了“人工”,也对知识图谱自动输出给予非常高的期待而忽视了其最本质最重要的可视化分析功能。此前一次项目交流中,有位业务人员说“你们的图谱产品也就是做了数据可视化,指标计算我用一般的数据库也能算出来呀”。说者无心听者有意,这反映了不少人对图谱最基本的数据展示功能嗤之以鼻,PPT上宣传的那么厉害的技术,当然要更高端大气上档次,怎么能只用它做数据可视化呢。这是图谱认知之乱。图谱将关系数据库中一条条“线状”的数据提升至“面状”或“网状”数据,数据展示形式的变化带来的是获取信息的视角变化,信息丰富度的变化。就像二维空间的蚂蚁永远想象不到三维空间的风景。基于图谱数据可视化,可以做更多关联关系的分析,然而这个分析过程是没有定论,没有约束,没有标准的,智者见智仁者见仁。图谱分析技术(图查询语言)的不统一严重限制了图谱可视化分析功能的普及,没有标准的分析方法也制约了人们正确认知图谱。

那么图谱可视化分析在实际业务场景能做什么?个人经验之谈,最重要的一点:案件排查。信贷场景、交易反欺诈等场景银行端的数据量和数据维度非常充足,构建的图谱自然是十分庞大复杂。图谱的分析首先得找到切入点,通常是有风险的客户、账户,进而关联出对应的公司、电话、家庭地址、设备等其他实体。通过从案件节点入手,利用图谱研究欺诈分子间的关联关系,顺藤摸瓜识别出其他可疑分子。利用图谱进行案件排查还有可能发现风险群体之间的特殊关联模式,典型的有传销账户金字塔结构,洗钱账户金字塔和倒金字塔结构。还有一些非常见的模式,如下图所示,两个客户(黄色节点)通过联系人(绿色节点)和联系电话(粉色节点)形成了交叉匹配关联,利用传统数据分析很难发现这种没有任何直接共同节点关联的联系。图谱可视化分析对解释团伙关联风险,理解作案手法起到巨大作用。遗憾的是就目前而言,这个过程无法实现自动化,非常依赖分析人员的技术和业务水平,有着一定的使用门槛。风控业务人员关心的是技术产出的结果,花钱采购了一个宣传得NBHH产品,然而还要求自己学习新技术才能使用,不能够自动产出风险名单,这种赔了夫人又折兵吃力不讨好的事甲方可不干。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。从解决方案层面,图谱的全应用流程如下:

图谱应用目前的重点是上述流程图的前四个部分,第五部分列举了两种图谱和机器学习相结合的方式,分别是利用图谱构建机器学习特征和利用图谱构建图神经网络。如前所述,走过前四步,尽管还未走得踏实,第五步终将很快到来。

“不识庐山真面目,只缘身在此山中”,图谱在金融风控中的作用毋庸置疑,但是现实项目里总是会被各类问题缠绕不开。暗流涌动之下,图谱目前的乱象是技术从学术应用到工业必经之路,既是机遇,也是挑战。关于图谱技术及应用更多的细节无法用一篇文章完全阐述,后续会用图谱专题做深入探讨。

标签:账户,好好,图谱,关联,指标,##,风控,数据
来源: https://blog.csdn.net/u010159842/article/details/120723318