其他分享
首页 > 其他分享> > 广工大数协 阿里云天池 金融风控训练营 Task1 学习笔记

广工大数协 阿里云天池 金融风控训练营 Task1 学习笔记

作者:互联网

(一)基础知识

1.数据概况:                                                                       (一)学习目标:1.了解并熟悉这些名词所带有的意义和何时何处使用。                 

(二)竞赛评价指标以及常见的评估指标

分类算法指标

       1.怀疑矩阵(混淆矩阵)

概念:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 [1]  在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

举例1:如有150个样本数据,预测为1,2,3类各为50个。分类结束后得到的混淆矩阵为:

 

预测

类1

类2

类3

实际

类1

43

2

0

类2

5

45

1

类3

2

3

49

每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量,

第一行说明有43个属于第一类的样本被正确预测为了第一类,有两个属于第一类的样本被错误预测为了第二类

举例2:假设有一个用来对猫(cats)、狗(dogs)、兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27 只动物:8只猫, 6条狗, 13只兔子。结果的混淆矩阵如下图:

在这个混淆矩阵中,实际有 8只猫,但是系统将其中3只预测成了狗;对于 6条狗,其中有 1条被预测成了兔子,2条被预测成了猫。从混淆矩阵中我们可以看出系统对于区分猫和狗存在一些问题,但是区分兔子和其他动物的效果还是不错的。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。

 

2.准确率(Accuracy)准确率是常用的一个评价指标,但是不适合样本不均衡的情况。   

Accuracy=TP+TNTP+TN+FP+FN

3.精确率(Precision)又称查准率,正确预测为正样本(TP)占预测为正样本(TP + FP)的百分比。   

Precision=TPTP+FP

4.召回率(Recall)又称为查全率,正确预测为正样本(TP)占正样本(TP + FN)的百分比。     Recall=TPTP+FN

5.F1分数精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾彼此,就需要精确率,召回率的结合F1分数。     

F1−分数= frac2 frac1Precision+ frac1Recall

6.PR曲线(Precision-Recall Curve)     PR曲线是描述精确率和召回率变化的曲线

7.ROC(接收机工作特性)

TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。

TPR=TPTP+FN:在所有实际为负例的样本中,被错误地判断为正例之比率。FPR= fracFPFP+TN

roc.png

8,AUC(曲线下面积)AUC(曲线下面积)被定义为ROC曲线下与坐标轴围成的面积,看起来这个面积的数值不会大于1。又由于ROC曲线一般都位于y = x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性发生;等于0.5时,则真实性最低,无应用价值。(本次竞赛所用评价指标)

对于金融风控预测类常见的评估指标如下:

1,KS(Kolmogorov-Smirnov)KS统计量由两位苏联数学家AN Kolmogorov和NV Smirnov提出。在风控中,KS常用于评估模型区分度。能力)越强。KS曲线与ROC曲线类似,不同在于

   
KS(%)好坏区分能力
20以下不建议采用
20-40更好
41-50良好
51-60很强
61-75非常强
75以上过于高,疑似存在问题

2,ROC

3,AUC

标签:Task1,预测,借款人,混淆,广工大,样本,矩阵,风控,KS
来源: https://blog.csdn.net/weixin_55162136/article/details/116034892