【论文】解决长尾数据、正负样本不均衡问题
作者:互联网
1 数据增强
采用数据增强,扩充少样本、正样本类别的数量
缺点:实验效果并不好,对少样本的数据增强在某种程度上加了过量噪声。
2 Focal Loss for Dense Object Detection(ICCV2017)
论文:https://arxiv.org/pdf/1708.02002.pdf
ICCV2017 RBG和Kaiming大神的新作
类别不均衡会带来什么后果呢?引用原文讲的两个后果:
(1) training is inefficient as most locations are easy negatives that contribute no useful learning signal;
(2) en masse, the easy negatives can overwhelm training and lead to degenerate models.
意思是负样本数量太大,占总的loss的大部分,而且多是容易分类的,因此使得模型的优化方向并不是我们所希望的那样。
针对类别不均衡问题,作者提出一种新的损失函数:focal loss,这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。
介绍focal loss之前,先来看看交叉熵损失,这里以二分类为例,原来的分类loss是各个训练样
标签:长尾,分类,loss,样本,损失,正负,easy,类别 来源: https://blog.csdn.net/weixin_45140119/article/details/121166764