首页 > 其他分享> > 一份风控面试题总结

一份风控面试题总结

2021-09-25 12:01:28 作者：互联网

前几天一位网友整理了一份面试题目，主要是偏风控模型岗，看了一下整理得很全面和实用。之前也整理过几份面试题，这次继续整理一下，希望能帮助一些需要的同学。之前写面试相关的问题：

一份很全的风控面试题

信贷风控模型岗的一些经验

1.进件渠道(60%会问到)

线上业务：信息流、贷超、APP、微信公众号等

线下业务：地摊导流、网点进件、合作企业团办、客户自己申请等

2.策略制定的步骤(20%会问到)

策略主要是根据业务中的风险点，寻找有效的特征进行防范。将变量进行特征重要性排序，用排名较高的/高IV的变量用作策略，一般命中策略的坏样本浓度要达到3倍以上，同时也要按月回溯策略的命中率和逾期率，尽可能少影响通过率的情况下框住坏的客群。弱变量/低IV的变量可以放到模型中，同时要注意策略用到的变量和模型用到的变量尽量不要有相似的，这样可以减少策略与模型的耦合。

3.贷前策略包括哪些数据(80%会问到)

一般数据源类型分为决策类和排序类。决策类有黑名单类(多头、逾期、黑产、失信、罪犯等)，验证类(学历、社保公积金、运营商实名与在网时长、地址信息、收入信息等)，刻画类(关注类、消费画像、第三方规则)，排序类有评分类(芝麻信用分、芝麻欺诈分等)。

4.说说策略是怎么做优化的？(100%会问到)

策略调优分为几步：

(1). 确认是A类调优还是D类调优。

D类就是降逾期指标，在通过客群中找差客户拒绝；A类就是提通过率回捞，在拒绝的客群中找好客户通过。

(2). 量化分析调优阈值。

D类调优离线即可完成分析，根据逾期指标选定Y(FPD1/FSTPD1/M4+等)，比较逾期指标上升前后的客群异，找到逾期率发生变化的原因。然后寻找单变量或者组合变量进行分析，识别出逾期率较高的客户进行拒绝。

A类调优需要决策引擎标记豁免样本，比较通过率下降前后的客群差异(新老客户/新老资产/渠道变化等)，寻找拒绝率较高的可放松的拒绝规则，放松阈值进行AB测试。

(3). 预测策略调整的效果

根据历史数据回溯每月数据，分析策略调整对通过率、逾期率的变化。

(4). 调整后观察和验证结果是否与预期一致

试验一段时间后，对上与不上策略的样本进行vintage分析，观察策略上线是否对逾期指标有影响以及影响是否与预测一致。

5.怎么做数据清洗的？(80%会问到)

缺失值处理：缺失值处理的方法有剔除、填补以及不处理三种方式。

异常值处理：了解异常值出现的原因，根据实际情况决定是否保留异常值。

常变量/同值化处理：对同值较高或者方差较低的变量作剔除。

分类变量降基处理：分类变量可以根据bad_rate编码后再做分箱，也可以将少数类合并成一类，确保每一类中都有好坏样本。

6.怎么做特征衍生的?(60%会问到)

RFM方法。

R（Recency）：客户最近一次交易消费时间的间隔。R值越大，表示客户交易发生的日期越久，反之则表示客户交易发生的日期越近。

F（Frequency）：客户在最近一段时间内交易消费的次数。F值越大，表示客户交易越频繁，反之则表示客户交易不够活跃。

M（Monetary）：客户在最近一段时间内交易消费的金额。M值越大，表示客户价值越高，反之则表示客户价值越低。

常规统计特征：统计函数最大值、最小值、平均值、标准差来描述以上分布特征。

时间距离特征：客户最远一次、最近一次或者某个特殊事件发生的时点。

行为波动特征：刻画客户某段连续时间内的行为变化特征。

集中度特征：用以刻画客户行为的偏好程度。

转自知乎求是汪《信贷时序数据与特征工程介绍》

举一些根据征信报告还款历史衍生的例子：

近3个月总逾期次数、近6个月最大连续逾期次数、最近1次逾期距今月数、近12个月逾期连续增加次数、近12个月逾期增加次数、近12个月每两个月之间增长的最大值、近12个月取最大值距今月数等。

7.怎么做特征筛选的？(60%会问到)

特征选择的话常见的有IV值、相关系数、稳定性CSI、逻辑回归系数一致、逻辑回归变量显著性、xgb特征重要度。逻辑回归评分卡筛选变量的步骤案例如下：
1、保留IV值大于0.02的变量，共500个;
2、把初筛的到的量进行WOE编码；
3、变量间两两相关检验并筛选，删除相关性大于0.7的变量400个，剩余100；
4、变量稳定性检验，把稳定性大于0.05的变量删除，剩余60个；
5、逐步回归法筛选最终入模变量，剩余入模变量10个。

8.怎么做特征分箱的？（60%会问到）

类别型变量进行降基处理(看是否需要)后分箱；

数值型变量等频分箱、等距分箱、决策树分箱、卡方分箱、手工分箱。

分完箱之后看woe与坏账率是否单调或者符合业务意义，如不符合再手动进行调整。

9.目标变量怎么定义?(100%会问到)

贷前模型的Y主要通过vintage和迁徙率。vintage确定观察期，迁徙率确定逾期多少为坏。

10.模型是怎么调参的?

先用交叉验证方法初步检验模型可以达到的上限，作为baseline，调参方法可以从训练速度、精度、过拟合三个方面回答，一般用网格搜索或者贝叶斯优化。调参可以看之前写的笔记xgboost调参小结或者网上搜索一下，步骤都差不多。

11.有没有ks允许变动的范围？（40%会问到）

投产后ks一定会有个衰减，因为上线后的客群是通过评分切过一刀的，区分能力上肯定不如建模样本。一般投产后的ks最低要在0.2以上，ks的衰减和通过率的影响也有关系。如果上线后通过率降低得多，ks衰减得也多。

12.模型会做哪些监控？（40%会问到）

模型监控主要分为前端监控和后端监控。前端分析主要关注人群的稳定性，后端分析主要关注模型的影响和表现。

前端监控主要是监控开发样本和现有样本分数的差异程度，模型第一要稳定，无论是分数的稳定还是变量的稳定，特别是重要性强的特征，它们分布的微小变动都会造成模型分数的偏移。监控指标有PSI、CSI。PSI有经验阈值，CSI没有，不同特征之间的CSI没有可比性。当特征的CSI为正时，表明该特征分布变化使模型得分往高分偏移，当CSI为负时则相反。

实践中，我们一般会先观察PSI，如果PSI显示模型分数不稳定，那么此时再去观察CSI，从特征级分析原因。如果模型稳定且只是个别变量不稳定的话就没事，如果是多个变量不稳定就要考虑根据特征相关性，替换成IV值相对较高的那个变量等。

后端分析有vintage分析和滚动率分析，可以分析出模型上线前后风险的差异，以及模型坏样本的定义是否准确。先利用滚动率分析确定训练目标（例如M3+），然后利用Vintage分析确定表现期（例如6个月），最后限定表现期大于等于6个月的样本用于模型训练。

后端分析因为有了样本表现，还可以监控模型的排序性和区分能力的变化情况。排序性的监控指标有Bad Rate、Odds、Lift等指标；区分能力的监控指标有AUC、Gini、KS。

此外，模型监控还有拒绝样本瀑布流分析、撤销分析、一致性分析等。拒绝瀑布流分析是对申贷过程中每个环节拒绝流量变化进行分析，反映了整体流程的稳定性；撤销分析是对被模型通过但是被信审拒绝人群的拒绝原因进行分析；一致性分析是分析模型决策与策略决策（不使用模型分的策略规则）的一致性，即模型决策过程中认为的坏样本，策略决策过程中是否也认为是坏样本。

摘自知乎

https://zhuanlan.zhihu.com/p/95797653

13.汇总一些指标的阈值

以下阈值为参考，可结合实际情况作调整。

lift:作规则时>3

多重共线性:VIF<=10