首页 > 其他分享> > 金融风控数据挖掘—Task1

金融风控数据挖掘—Task1

2021-04-22 22:30:22 作者：互联网

一、学习知识点概要

了解数据概况，学习金融风控中常见的分类算法评估指标和预测类评估指标。

①混淆矩阵

②准确率（衡量预测准确数在总预测数中占比的指标，但是不适合样本不均衡的情况）

$Accuracy=(TP+TN)/(TP+FP+TN+FN)$

③精确率（又称查准率，真正类（TP）占预测为正样本(TP+FP)的百分比）

$Precision=TP/(TP+FP)$

④召回率（又称查全率，真正类（TP）占正样本(TP+FN)的百分比）

$Recall=TP/(TP+FN)$

⑤F1 Score

$F1-Score=2/((1/Precision)+(1/Recall))$

⑥P—R曲线（P-R曲线是描述精确率和召回率变化的曲线）

⑦ROC曲线（又称感受性曲线，可以测试在不同的错判为正（FPR）条件下，所能达到的正确判断为正（TPR）的值）

$FPR=FP/(FP+TN)$

$TPR=TP/(TP+FN)$

⑧AUC（被定义为 ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。）

①KS

在风控中，KS常用于评估模型区分度。区分度越大，说明模型的风险排序能力（ranking ability）越强。 K-S曲线与ROC曲线类似，不同在于

$KS=max(TPR-FPR)$

②ROC

③AUC

解答：

何为样本分布不均：

样本分布不均衡就是指样本差异非常大，例如共1000条数据样本的数据集中，其中占有10条样本分类，其特征无论如何你和也无法实现完整特征值的覆盖，此时属于严重的样本分布不均衡。

为何要解决样本分布不均：

样本分部不均衡的数据集也是很常见的：比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。

样本不均衡将导致样本量少的分类所包含的特征过少，很难从中提取规律，即使得到分类模型，也容易产生过度依赖于有限的数量样本而导致过拟合问题，当模型应用到新的数据上时，模型的准确性和健壮性将会很差。

在实际操作中，不存在可以完全拟合的模型。我们只能够掌握更多的拟合方式，找到其中拟合度最高的那种。没有最准确的算法，只有更优的算法。

标签：Task1,样本,负类,ROC,曲线,TP,风控,数据挖掘,预测
来源： https://blog.csdn.net/gdgydxzzh/article/details/116030388