催收评分卡(五)--浅显理解模型一个非常重要的验证指标
作者:互联网
之前说的关于变量的整理,按照一套标准化的建模流程,变量整理完后,一般会基于各种基础变量做数据衍生。
原计划是想做关于数据变量衍生的内容,考虑到后台有粉丝在咨询关于模型验证的事情,今天就穿插一下讲模型验证里最重要的指标KS值。
KS值是衡量一个模型是否有区分度的一个非常重要的指标,模型一般在0.3以上就具有一定的区分能力。我了解到,目前各大公司在实际应用模型时,大部分模型ks基本在0.2左右。
现在为了让做业务的同学也能浅显地理解ks值,我除了讲解ks的公式外,还把ks值用excel实现了。
首先,还是应该贴一下ks值的计算原理:
ks值是在模型中用于区分预测正负样本分隔程度的评价指标。每个样本的预测结果化对应的一个个分数,从最低分到最高分,输出为正负样本的累积分布。Ks值为这个两个正负样本中,最大差值的绝对值。
我们知道,在sas里,算KS值是很方便的。用proc npar1way过程,就能求出ks值了。单单调用一个过程,其实对于使用一个过程步的同学来说,他们也比较好奇究竟是怎么算出来这个结果,本人就简洁扼要地说下怎样将ks输出到excel里。
在网上搜了很久,几乎没有关于ks值输出到excel的资料,那就自己动手,把ks值输出excel,并且成功完美实现。
我们先来看展示出来的结果,请看算出来的效果:
并且在右上角,我们会把ks值做成表格的形式输出:
当然有表的形式,还是不够,还应该为KS值配上图。
输出图之前我们先梳理几个问题:
A.问题一:常常做某些贷前评分卡的时候,总是听到有同学说,自己的模型建设出来的,发现模型的KS值非常低,而在贷后催收评分卡里,最怕的是评分卡ks值非常高。先来看一个ks值极高的图;
这个是我曾经开发出来一个KS值达到90%的模型的。Ks值够高了吧,但是看图就可以很明显地看出来,在分数达到某个值的(大概是将近680分的时候),模型有一个断崖式的走势。
这样的ks值,其实对客群的分类并不完美。
至于造成这种结果的原因,也是在我之前文章中,反复强调过的:非常容易用y预测y。假如用y预测y变量,其实在早期的iv值的计算的时候,就有个非常明显的特征,就是IV值。IV值一般也到了一个反常态的水平,值会大于1或者大于2。
 问题二:KS的取值在多少比较合适?先贴图:有畸形的KS值,也有做得成功的KS值图,
所以ks值并不是越高越好,这是一张正常的KS图。从这个图就可以看出来,这张图的KS值走势就比较符合正常模型的走势。而且在中间某个点位置,KS值达到最大。
一般在说催收评分里做出来KS值会比较高,以我做出来的催收评分为例,KS值能达到0.4到0.5的幅度内。
一般正常来说:指标的合理性应该是这样:
最后图表合在一起的,是长成这个样子的。
问题三:平常使用ks值的用途。
当一张催收评分卡开发完成,Ks值除了作为我们的模型验证指标外。我们还能用来做客群切分。 具体做法就是,把分数低于最大ks值的客群,全部拒批。当然,使用的这样的场景,仅仅是基于为了最大可能的筛除掉坏客群而言的。实操中,我们经常需要综合考虑客群的bad rate,资金成本, APR等维度综合考虑。
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入" 番茄风控大数据"一起学习一起聊!
标签:KS,ks,评分,模型,excel,催收,浅显 来源: https://blog.csdn.net/weixin_45545159/article/details/100065999