其他分享
首页 > 其他分享> > 《联邦学习实战》杨强 读书笔记八——联邦学习在金融保险领域的应用案例

《联邦学习实战》杨强 读书笔记八——联邦学习在金融保险领域的应用案例

作者:互联网

本章将介绍两个案例,分别是基于纵向联邦的保险个性化定价案例和基于横向联邦的银行间反洗钱模型案例。

基于纵向联邦学习的保险个性化定价案例

案例描述

保险个性化定价,与其他个性化服务一样,需要平衡保险公司和客户之间的关系。一方面,消费者会根据自身的需求选择符合个人的产品;而另一方面,为了提高客户满意度,保险公司也需要具备扎实的数据洞察力基础。

但保险业的个性化定价却受到很多因素的制约,导致其模型的构建往往不准确,其中主要的难点在于数据层面。对保险进行个性化定价,需要结合每一位客户的特征属性,但是客户的数据属性多种多样,包括央行征信报告、税收、信贷、消费能力、年龄、职业等。然而,对于金融机构来说,能直接使用的数据-般 只有中央银行的信用报告和信贷数据,其他数据都在其他机构中,数据的缺失是导致个性化建模不准确的最关键因素。

为此,我们利用前面提到的纵向联邦学习的思想,它非常适合处理跨部门或者跨机构之间联合建模的问题。

保险个性化定价的纵向联邦建模

本案例我们要解决的是:联合多方数据构建一个保险个性化定价模型,用来预测一个客户的出险概率。假设现在保险公司与一家出租车公司合作,希望通过个性化模型帮助出租车公司预测客户的出险概率,同时保险公司还与其他行业机构公司有合作,但是这三方之间的数据是不连通、也是不能共享的。保险公司如何在合法合规的前提下,联合两方的数据联合建模,提升保险定价的模型效果呢?

出租车公司有每一个客户的订单信息、车辆信息和业务表现等,我们把这些特征数据记为X1,同时出租车公司还有历史订单中客户的出险概率,记为Y。此外,该保险公司与另一家互联网公司也有业务合作,在该互联网公司的产品中,用户注册时会带有客户的画像属性,包括人口属性、兴趣爱好、教育信息和财务状况等,我们将这部分特征数据记为X2。两个参与方的本地数据部分样例格式,其中X2=(ID,x1,x2),X1= (ID,x3),(X1,Y) 和X2分别分布于不同的公司和机构之间。通常,两个机构的特征数据X1和X2是不重叠的。

个性化的保险定价,本质上是根据客户的特征信息预测出险概率,可以将问题归结为二分类问题,本案例中我们使用逻辑斯蒂回归模型来预测保险定价:

Y = sigmoid(W; X1, X2)

要在数据不共享的前提下,求解式(8.1)的最优参数W,这是纵向联邦学习的经典

应用。主要步骤包括:

  1. 求取相交的用户ID集合:
    1. 步骤1:公司B利用RSA算法生成公钥对(n,e)和私钥对(n,d),并将公钥对(n,e)发送给公司A。
    2. 步骤2:公司A对其本地的用户集合中的每一个元素,生成一个对应的随机数;,利用公钥对(n,e)对随机数进行加密。将此元素带入散列函数中。将两者相乘,得到Y_A
    3. 步骤3:公司B利用私钥对(n,d),对Y_A进行解密,记为Z_A
    4. 步骤4:公司A将映射表连接,得到新的公司A映射表。
    5. 步骤5:将公司A和B的映射表执行相交运算。这样公司A就得到了交集结果。但为了防止信息泄露,不能直接将明文发给公司B,而是将相交部分映射前的内容发给公司B,公司B利用自身的映射表求取明文结果。
    6. 步骤6:公司B将相交部分利用自身的映射表求取明文结果。
  2. 纵向联邦学习求解:采用经典的纵向逻辑回归模型求解。

基于横向联邦的银行反洗钱模型案例

案例描述

每家银行都有用户在本银行的存款、贷款、转账等信息,利用这些数据特征训练一个预测模型,可以预测用户的每笔交易是否存在洗钱行为。

反洗钱模型本质上是一个二分类问题,我们可以借助常用的二分类模型来求解,比如常用的逻辑斯蒂回归、神经网络等。

反洗钱模型的横向联邦建模

构建反洗钱模型往往受到数据的制约。通常,各家银行的客户重合度比较低,也就是一个客户通常只会与 家或者少数几家银行发生交易行为,因此仅仅以一家银行的数据来构建反洗钱模型,往往不能覆盖所有的人群;但多家银行之间,又因为存在数据壁垒,无法共享数据。这时,联邦学习提供了一个可行的方案,我们知道,银行之间客户群体的重合度一般比较低,但是它们的特征数据基本一致(都和银行业务相关),因此适合使用横向联邦来构建模型。

每一家银行内部都有各自的客户数据,每一家银行的数据都包括特征数据X ( 存款、贷款等信贷数据),同时还有标签数据Y,也就是判断每一个用户的交易行为是否可疑。

反洗钱模型本质上是一个二分类问题,可以选用任意的二分类模型构建反洗钱模型,如常见的逻辑回归。学习的框架可参照经典的横向联邦学习框架。

金融领域的联邦建模难点

在金融、银行、保险等行业中,由于受到政府监管和法律法规的的直接影响,对数据的隐私保护要求比其他行业的更为严格。联邦学习的出现为金融建模提供了一种可行的隐私保护方案。当前在金融领域构建模型主要存在两个难点问题,即数据不平衡和可解析性问题。本节针对这两个问题进行简要的分析。

数据不平衡

在金融场景下,数据标签不平衡的情况尤为明显,比如我们要对逾期客户进行建模,通常,逾期客户的样本极少,正样本(正常客户)和负样本(逾期客户)的比例可能达到1000:1甚至更大。因此,在构建模型时通常采用些策略来缓解不平衡数据导致的问题,本节主要从数据和算法两个角度给出常见的处理技巧。

从数据层面:可以对数据进行采样从而让原来不均衡的数据集变均衡。采样的方法可以有以下几种:

  1. 过采样(over sampling):过采样即对少数类样本进行重复采样,从而得到更多的样本,使得样本达到均衡。过采样由于对少数类样本进行了复制,虽然增加了数据规模,但容易过拟合。
  2. 欠采样 (under samplinig ):欠采样即对多数类的样本进行采样,采样的多数类祥本数量与少数类的样本数量基本相同,将其作为当前的训练数据。欠采样对多数类样本的采样导致数据缺失,学到的模型效果不理想。
  3. 生成新样本:与过采样不同,我们不是重复对少数类样本进行采样,而是利用少数类样本生成新的样本数据,这些样本数据与少数类样本的特征相似,比如SMOTE算法、Borderline SMOTE算法和ADASYN算法等。
  4. 改进的欠采样:欠采样对多数类样本进行采样之后可能导致样本缺失,学习的模型性能下降,为此提出了一种新型的欠采样的改进方案,包括Easy Ensemble、Balance Cascade等。

从算法层面:从算法的角度,最常见的处理方式是通过修改目标函数,让不同的类别具有不同的权重,即代价敏感学习;也可以将少数类看成异常点,将问题转化为异常检测来处理。

可解析性

在金融领域,大部分场景下我们采用的都是线性模型,其中一个主要原因是考虑可解折性。在金融场景下的可解析对象包括客户、 政府监管机构和开发人员,线性模型相比于复杂的神网络算法,在性能上可能会稍微下降,但是具有很强的可解析性。

本读书笔记系列针对2021年5月出版的《联邦学习实战》(见下图),后续部分将逐步更新

标签:杨强,采样,读书笔记,模型,样本,客户,联邦,数据
来源: https://blog.csdn.net/IEEE802_11/article/details/118571458