其他分享
首页 > 其他分享> > 风控建模中的单变量分析

风控建模中的单变量分析

作者:互联网

目录


第2节 单变量分析

2.1 征信矢量

不管是一代还是二代征信报告,其包含的信息都是繁多且复杂的,并且无法直接使用原始数据进行CA分析和建模,为了快速、准确、全面地获取征信信息,需要对征信进行矢量提取,得到征信矢量。



提取征信矢量原则



提取征信矢量作用


2.2 信息熵

征信矢量提取之后,为了区分不同矢量对风险的识别能力,这时就需要计算每个矢量的信息熵,这个过程就是单变量分析,也叫CA分析。CA分析的原理及过程见下表:

变量 好客户数 好客户占比 坏客户数量 坏客户占比 好/坏指数 比率 信息熵增量
A:0 to 2 10000 10% 400 40% -4.0 -4.0 41.59
B:2 to 5 20000 20% 300 30% -1.5 -1.5 4.05
C:5 to 9 30000 30% 200 20% 1.5 1.5 4.05
D:>9 40000 40% 100 10% 4.0 4.0 41.59
合计 100000 1000 91.29

表格解读:

最后把不同箱体的信息熵增量相加,就得到该变量的信息熵。对于不同的征信矢量,信息熵越大,区分好坏客户的能力越强。


2.3 分箱

简而言之,分箱就是对变量进行分组。分箱是CA分析的第一步,也是最重要的一步。



分箱的原理

分箱的实质,其实就是对连续变量离散化、单调化、线性化的过程。



分箱的好处



分箱的方法


2.3.1卡方分箱

卡方分箱的思路,是先对变量进行离散化,然后判断相邻区间好坏客户分布是否一致。如果两个相邻区间具有类似分布,则这两个区间可以合并;否则,应当保持分开。而低卡方值表明它们具有相似分布,可以合并。



卡方分箱原理



卡方分箱步骤

值得注意的是,若卡方分箱中出现某个箱内全部为好客户或坏客户,则需要进行合并处理。



卡方阈值的确定



单调化处理

卡方分箱后,还需对变量进行趋势处理以保证单调性。单调化的目的,是为了让变量在模型中易于解释(可解释性,保证和业务逻辑一致)。常用有两种方法:


2.3.2 Beat-KS分箱

Beat-KS分箱原理



Beat-KS分箱步骤


2.4 思考

目前的分箱方法(卡方分箱)如何改进?

标签:征信,分箱,变量,建模,风控,KS,客户,卡方
来源: https://www.cnblogs.com/1k-yang/p/12487908.html