1评分卡模型相关~知识点已更完~代码待更
作者:互联网
训练阶段:对数据的训练,创建一个预测模型并对其进行微调。
模型生成:预测模型可以从这些数据背后找到答案,帮我们解决问题
预测阶段:通过测试集完成模型评估,从而了解模型在测试集中的有效性。
收集数据->准备数据:数据预处理->选择模型->训练->评估->超参数调整->预测
基础强化
最小二乘估计是最小化残差平方和(RSS)
lasso加入了L1惩罚项进行约束
岭回归加入了L2惩罚项
RFM指标
Recency:最近一次消费时间间隔
Frequency:消费频率,一段时间内的消费次数
Monetary:消费金额,一段时间内的消费金额
每个指标越大,用户价值越高
LDA线性判别分析
Linear Discriminant Analysis
目的是进行分类,思想是最大化类间方差与最小化类间方差,减少分类内部之间的差异,增加不同分类之间的差异。
很明显LD1是。
评分卡模型
常用金融风控手段之一。
风控:风险控制,采取各种措施和方法,减少风险发生的可能性、损失。
根据客户的各种属性和行为数据,利用信用评分模型,对客户的信用进行评分,从而决定是否给予授信,授信的额度和利率,减少在金融交易中存在的交易风险。
按照不同的业务阶段,可以划分为三种
贷前:申请评分卡 Application score card A卡
贷中:行为评分卡 Behavior score card B卡
贷后:催收评分卡 Collection score card C卡
用户评分 = 基准分+年龄评分+性别评分+婚姻状况评分+学历评分+月收入评分
- 数据获取
- EDA 获取样本整体情况,进行直方图、箱盒图可视化
- 数据预处理,包括数据清洗、缺失值处理、异常值处理
- 变量筛选,筛选出对违约状态影响最显著的指标,主要有单变量特征和基于机器学习的方法
- 模型开发,包括变量分段、变量WOE变换和逻辑回归估计三部分
- 模型评估,评估模型的区分能力、预测能力、稳定性,并生成模型评估报告
- 生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分方法,将Logistic模型转换为标准评分的形式
- 建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统
WOE编码
Weight of Evidence 证据权重
是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性
B代表风险客户
G代表正常客户
对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本占比的差异。
差异越大,对风险区分越明显。
计算
对于连续型变量,分成N个bins
对于分类型变量保持类别group不变
计算每个bin or group中event和non-event的百分比
作用
可以将连续性变量转化为woe的分类变量
可以对相似的bin或group进行合并
注意
每个bin或者group不能过少,至少有5%的记录
不能过多,不稳定
bin或者group中全为0或者1的特例,用修正的woe
woe好处:
简化模型,使得模型变稳定,降低了过拟合的
IV information value
woe只考虑了风险区分的能力,没有考虑能分区的用户有多少。
IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力,用于筛选变量。
可以看作是WOE的加权和。
可参考:
步骤
-
对于连续性变量,进行分箱binning(等距、等频、自定义间隔),对于离散型变量,分箱太多,则进行分箱合并。
-
统计每个分箱里的好人数和坏人数
-
分别除总的好人数和坏人数,得到分箱内的边际好人占比和边际坏人比
-
计算每个分箱的WOE
-
检查每个分箱(除null)里WOE值是否满足单调性,若不满足,返回第一步
-
计算每个分箱内的IV,最终求和,得到最终的IV
Odds Ratio(OR)
Odds 胜率(优势),即事件发生与不发生的比例:odds=p / (1-p)
假设事件为客户逾期,Y=1,那么Age=Age1时的ODDS:
Odds Ratio为两个Odds的比值,比如Age1和Age2之间的Odds Ration(OR)
woe会呈现单调性。
缺失值处理
直接删除含有缺失值的样本
舍弃字段
采用简单规则进行补全:删除 高频 均值
预测进行补全:根据样本之间的相似性、相关关系填补缺失值
评估指标KS
Kolmogorov-Smirnov
常用于评估模型区分度,区分度越大,风险排序能力越强
ks曲线:计算每个score分箱区间累计坏帐户占比和累计好用户占比差的绝对值
ks值:在这些绝对值中取最大值,是衡量好坏客户分数距离的上限值
ks含义:如果排除掉一定比例的坏用户,会有多少比例的好用户被误杀掉
评估指标PSI
群体稳定性指标:Population Stability Index
反映了验证样本在各分数段的分布与建模样本分布的稳定性
稳定性是有参照的,需要两个分布,即实际分布与预期分布
PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
训练样本:预期分布
验证样本:实际分布
标签:知识点,group,变量,分箱,评分,代码,WOE,模型 来源: https://blog.csdn.net/weixin_40459998/article/details/118298377