一份风控面试题总结
作者:互联网
前几天一位网友整理了一份面试题目,主要是偏风控模型岗,看了一下整理得很全面和实用。之前也整理过几份面试题,这次继续整理一下,希望能帮助一些需要的同学。之前写面试相关的问题:
1.进件渠道(60%会问到)
线上业务:信息流、贷超、APP、微信公众号等
线下业务:地摊导流、网点进件、合作企业团办、客户自己申请等
2.策略制定的步骤(20%会问到)
策略主要是根据业务中的风险点,寻找有效的特征进行防范。将变量进行特征重要性排序,用排名较高的/高IV的变量用作策略,一般命中策略的坏样本浓度要达到3倍以上,同时也要按月回溯策略的命中率和逾期率,尽可能少影响通过率的情况下框住坏的客群。弱变量/低IV的变量可以放到模型中,同时要注意策略用到的变量和模型用到的变量尽量不要有相似的,这样可以减少策略与模型的耦合。
3.贷前策略包括哪些数据(80%会问到)
一般数据源类型分为决策类和排序类。决策类有黑名单类(多头、逾期、黑产、失信、罪犯等),验证类(学历、社保公积金、运营商实名与在网时长、地址信息、收入信息等),刻画类(关注类、消费画像、第三方规则),排序类有评分类(芝麻信用分、芝麻欺诈分等)。
4.说说策略是怎么做优化的?(100%会问到)
策略调优分为几步:
(1). 确认是A类调优还是D类调优。
D类就是降逾期指标,在通过客群中找差客户拒绝;A类就是提通过率回捞,在拒绝的客群中找好客户通过。
(2). 量化分析调优阈值。
D类调优离线即可完成分析,根据逾期指标选定Y(FPD1/FSTPD1/M4+等),比较逾期指标上升前后的客群异,找到逾期率发生变化的原因。然后寻找单变量或者组合变量进行分析,识别出逾期率较高的客户进行拒绝。
A类调优需要决策引擎标记豁免样本,比较通过率下降前后的客群差异(新老客户/新老资产/渠道变化等),寻找拒绝率较高的可放松的拒绝规则,放松阈值进行AB测试。
(3). 预测策略调整的效果
根据历史数据回溯每月数据,分析策略调整对通过率、逾期率的变化。
(4). 调整后观察和验证结果是否与预期一致
试验一段时间后,对上与不上策略的样本进行vintage分析,观察策略上线是否对逾期指标有影响以及影响是否与预测一致。
5.怎么做数据清洗的?(80%会问到)
缺失值处理:缺失值处理的方法有剔除、填补以及不处理三种方式。
异常值处理:了解异常值出现的原因,根据实际情况决定是否保留异常值。
常变量/同值化处理:对同值较高或者方差较低的变量作剔除。
分类变量降基处理:分类变量可以根据bad_rate编码后再做分箱,也可以将少数类合并成一类,确保每一类中都有好坏样本。
6.怎么做特征衍生的?(60%会问到)
RFM方法。
R(Recency):客户最近一次交易消费时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
F(Frequency):客户在最近一段时间内交易消费的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
M(Monetary):客户在最近一段时间内交易消费的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。
常规统计特征:统计函数最大值、最小值、平均值、标准差来描述以上分布特征。
时间距离特征:客户最远一次、最近一次或者某个特殊事件发生的时点。
行为波动特征:刻画客户某段连续时间内的行为变化特征。
集中度特征:用以刻画客户行为的偏好程度。
转自知乎求是汪《信贷时序数据与特征工程介绍》
举一些根据征信报告还款历史衍生的例子:
近3个月总逾期次数、近6个月最大连续逾期次数、最近1次逾期距今月数、近12个月逾期连续增加次数、近12个月逾期增加次数、近12个月每两个月之间增长的最大值、近12个月取最大值距今月数等。
7.怎么做特征筛选的?(60%会问到)
特征选择的话常见的有IV值、相关系数、稳定性CSI、逻辑回归系数一致、逻辑回归变量显著性、xgb特征重要度。逻辑回归评分卡筛选变量的步骤案例如下:
1、保留IV值大于0.02的变量,共500个;
2、把初筛的到的量进行WOE编码;
3、变量间两两相关检验并筛选,删除相关性大于0.7的变量400个,剩余100;
4、变量稳定性检验,把稳定性大于0.05的变量删除,剩余60个;
5、逐步回归法筛选最终入模变量,剩余入模变量10个。
8.怎么做特征分箱的?(60%会问到)
类别型变量进行降基处理(看是否需要)后分箱;
数值型变量等频分箱、等距分箱、决策树分箱、卡方分箱、手工分箱。
分完箱之后看woe与坏账率是否单调或者符合业务意义,如不符合再手动进行调整。
9.目标变量怎么定义?(100%会问到)
贷前模型的Y主要通过vintage和迁徙率。vintage确定观察期,迁徙率确定逾期多少为坏。
10.模型是怎么调参的?
先用交叉验证方法初步检验模型可以达到的上限,作为baseline,调参方法可以从训练速度、精度、过拟合三个方面回答,一般用网格搜索或者贝叶斯优化。调参可以看之前写的笔记xgboost调参小结或者网上搜索一下,步骤都差不多。
11.有没有ks允许变动的范围?(40%会问到)
投产后ks一定会有个衰减,因为上线后的客群是通过评分切过一刀的,区分能力上肯定不如建模样本。一般投产后的ks最低要在0.2以上,ks的衰减和通过率的影响也有关系。如果上线后通过率降低得多,ks衰减得也多。
12.模型会做哪些监控?(40%会问到)
模型监控主要分为前端监控和后端监控。前端分析主要关注人群的稳定性,后端分析主要关注模型的影响和表现。
前端监控主要是监控开发样本和现有样本分数的差异程度,模型第一要稳定,无论是分数的稳定还是变量的稳定,特别是重要性强的特征,它们分布的微小变动都会造成模型分数的偏移。监控指标有PSI、CSI。PSI有经验阈值,CSI没有,不同特征之间的CSI没有可比性。当特征的CSI为正时,表明该特征分布变化使模型得分往高分偏移,当CSI为负时则相反。
实践中,我们一般会先观察PSI,如果PSI显示模型分数不稳定,那么此时再去观察CSI,从特征级分析原因。如果模型稳定且只是个别变量不稳定的话就没事,如果是多个变量不稳定就要考虑根据特征相关性,替换成IV值相对较高的那个变量等。
后端分析有vintage分析和滚动率分析,可以分析出模型上线前后风险的差异,以及模型坏样本的定义是否准确。先利用滚动率分析确定训练目标(例如M3+),然后利用Vintage分析确定表现期(例如6个月),最后限定表现期大于等于6个月的样本用于模型训练。
后端分析因为有了样本表现,还可以监控模型的排序性和区分能力的变化情况。排序性的监控指标有Bad Rate、Odds、Lift等指标;区分能力的监控指标有AUC、Gini、KS。
此外,模型监控还有拒绝样本瀑布流分析、撤销分析、一致性分析等。拒绝瀑布流分析是对申贷过程中每个环节拒绝流量变化进行分析,反映了整体流程的稳定性;撤销分析是对被模型通过但是被信审拒绝人群的拒绝原因进行分析;一致性分析是分析模型决策与策略决策(不使用模型分的策略规则)的一致性,即模型决策过程中认为的坏样本,策略决策过程中是否也认为是坏样本。
摘自知乎
https://zhuanlan.zhihu.com/p/95797653
13.汇总一些指标的阈值
以下阈值为参考,可结合实际情况作调整。
lift:作规则时>3
多重共线性:VIF<=10
相关系数:<0.7
IV:>0.02
KS:0.2-0.5,训练集和测试集的KS相差在3%以内
PSI:<0.25
逻辑回归要检验系数符号一致性,否则分数和bad_rate会无法解释。
暂时就写这么多,以上问题如有不同见解或者补充的,欢迎交流讨论~
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:做一个有规划的长期主义者。
【转载说明】:转载请说明出处,谢谢合作!~
标签:总结,分析,面试题,变量,逾期,特征,模型,样本,风控 来源: https://blog.csdn.net/lc434699300/article/details/120469765