其他分享
首页 > 其他分享> > 你要的机器学习常用评价指标,以备不时之需

你要的机器学习常用评价指标,以备不时之需

作者:互联网

导读

在机器学习中,我们前期经过数据采集、数据清洗,中期进行特征分析、特征选择,后期对处理好的数据集分割,将数据集划分为训练集、验证集合、测试集,最后基于划分好的数据集进行训练调优,并选择性能最好的模型。那么我们是如何评估我们的模型性能好坏的呢?这就不得不说一下常用的机器学习评级指标了。上车~~

机器学习评价指标

对于机器学习中评价模型性能的指标,常用的有准确率、精度、召回率、P-R曲线、F1 分数、ROC、AUC以及混淆矩阵等。这里我们先以二分类举例讲解,后边推及到多分类即可。
在二分类中,我们称呼两类样本分别为正类和负类。模型训练好之后,我们让模型对测试集数据进行预测,并对预测结果进行评估。下面介绍几个概念:

我们上边提到的集中指标都是基于以上四个概念进行计算的,下面分别介绍。

  1. 准确率(Accuracy)
    准确率是分类问题最原始的评价指标,反映了预测正确结果占总样本的百分比,其定义为:
    A c c u r a c y = T P + T N T P + T N + F P + F N \begin{aligned} Accuracy = &\frac{TP + TN}{TP + TN + FP + FN}\\ \end{aligned} Accuracy=​TP+TN+FP+FNTP+TN​​
    从准确率的定义式我们可以看出猫腻,假如数据集中样本分布不均衡,100个样本中有99个都是正样本,只有一个负样本,这时候模型很容易对正样本过拟合,而且不认识负类样本。不管三七二十一,只要碰到一个样本,便预测其为正类,这时候计算出来准确率为99%,但我们都知道这种模型是不能没有任何意义的(对负类样本没有判断能力)。所以对模型评估的时候只看准确率是不客观的,片面的,还需要结合其他指标一起判断。

  2. 精度(Precision)

精度是反映了所有预测为正类的样本中实际为正类样本的概率,即在所有预测为正类的样本中,真正的正类样本有多少,其定义为:
P r e c i s i o n = T P T P + F P \begin{aligned} Precision = &\frac{TP}{TP + FP}\\ \end{aligned} Precision=​TP+FPTP​​
准确率反映了模型对整体数据的预测能力(既包括正样本,也包括负样本),而精度指标反映了我们的模型对正类样本预测准确程度

  1. 召回率(Recall)

精度指标反映了我们的模型对正类样本预测准确程度。那我们可以理解召回率表示了模型对正样本的实际甄别能力,即模型预测为正类样本数占所有真正的正类样本的百分比,其定义为:
R e c a l l = T P T P + F N \begin{aligned} Recall = &\frac{TP}{TP + FN}\\ \end{aligned} Recall=​TP+FNTP​​
召回率和准确率是一对此消彼长的指标,例如在典型的猫狗分类中,我们想提升模型对于狗的召回率,那么可能会有猫也被判定为狗,这样一来狗的准确率就下降了。在实际工程中,我们往往需要对这两个指标做Trade-Off,寻找一个平衡点,使得模型性能更加贴合具体的业务场景

从它们的定义是中我们可以看到,灵敏度就是正样本的召回率,特异度就是负样本的召回率,而假负率和假正率分别等于1 - TPR和1 - TNR,上述四个概念都是针对单一类别(正样本或者负样本)的预测结果而言的,所以对整体样本是否均衡并不敏感。我们还是拿样本不均衡的例子解释一下,假设总样本中,90%是正样本,10%是负样本。在这种情况下我们如果使用准确率进行评价是不科学的,但是用TPR和TNR却是可以的,因为TPR只关注90%正样本中有多少是被预测正确的,而与那10%负样本毫无关系,同理,FPR只关注10%负样本中有多少是被预测错误的,也与那90%正样本毫无关系。这样就避免了样本不平衡的问题。
如图所示,ROC曲线的两个主要指标就是TPRFPR,与P-R曲线类似,ROC曲线也是通过不同阈值下的TPRFPR绘制出来的,但是P-R曲线的横纵坐标为Precision和Recall,它们会随着阈值的不同曲线会发生变化,但是ROC因为选取的是TPRFPR,曲线形状不受与之选择的影响。即阈值不会影响我们使用ROC曲线来评估模型的性能。而且ROC不受类别不均衡的影响,无论正负样本的分布及比例怎么变化,ROC曲线不变,这是经过实验验证的。
在这里插入图片描述

混淆矩阵可以直观地反应模型预测分类的结果,顾名思义,它反映了模型预测分类的混淆程度。矩阵的第 i 行和第 j 列代表的是标签为 i 类别的样本被分类为 j 类别的样本个数。对角线上为所有预测正确的样本数目。在深度学习的图像分类任务中,混淆矩阵是比较通用的评价指标,它反映了模型对各个类别的判断能力和学习效果。

总结

在这篇文章中,我们介绍了机器学习领域中模型评价的常用指标,分别由准确率(Accuracy)、精度(Precision)、召回率(Recall)、P-R曲线、ROC曲线、AUC以及混淆矩阵。大家在具体使用过程中可以结合自己的业务场景和任务,以及自己领域比较主流的指标进行评估。希望文章能够在大家需要的时候帮助到大家,同时也是我自己的一边复习,跟大家一起进步是很开心的一件事情。大家有什么疑问或者意见欢迎评论区交流,文章对您有帮助的话别忘了留个赞再走哦~对于搞机器学习的小伙伴可以收藏,总是要用到的嘿嘿。

标签:曲线,frac,以备,样本,不时之需,TPR,评价,aligned,模型
来源: https://blog.csdn.net/Just_do_myself/article/details/118631495