其他分享
首页 > 其他分享> > 金融风控数据挖掘—Task1

金融风控数据挖掘—Task1

作者:互联网

一、学习知识点概要

了解数据概况,学习金融风控中常见的分类算法评估指标和预测类评估指标。

二、学习内容

1、不同数据列的性质特征

2、分类算法的常见评估指标 

①混淆矩阵

②准确率(衡量预测准确数在总预测数中占比的指标,但是不适合样本不均衡的情况)

Accuracy=(TP+TN)/(TP+FP+TN+FN)

③精确率 (又称查准率,真正类(TP)占预测为正样本(TP+FP)的百分比)

Precision=TP/(TP+FP)

④召回率(又称查全率,真正类(TP)占正样本(TP+FN)的百分比)

Recall=TP/(TP+FN)

⑤F1 Score

F1-Score=2/((1/Precision)+(1/Recall))

⑥P—R曲线(P-R曲线是描述精确率和召回率变化的曲线)

⑦ROC曲线(又称感受性曲线,可以测试在不同的错判为正(FPR)条件下,所能达到的正确判断为正(TPR)的值)

FPR=FP/(FP+TN)

TPR=TP/(TP+FN)

⑧AUC(被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。)

3、金融风控预测类常见的评估指标

①KS

在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于

KS=max(TPR-FPR)

KS(%)好坏区分能力
20以下不建议采用
20-40较好
41-50良好
51-60很强
61-75非常强
75以上过于高,疑似存在问题

②ROC

③AUC

三、学习问题与解答

准确率为什么不适用于样本不均匀的时候?

解答:

何为样本分布不均:

样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。

为何要解决样本分布不均:

样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。

样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型,也容易产生过度依赖于有限的数量样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性和健壮性将会很差。

四、学习思考与总结

在实际操作中,不存在可以完全拟合的模型。我们只能够掌握更多的拟合方式,找到其中拟合度最高的那种。没有最准确的算法,只有更优的算法。

标签:Task1,样本,负类,ROC,曲线,TP,风控,数据挖掘,预测
来源: https://blog.csdn.net/gdgydxzzh/article/details/116030388