首页 > 其他分享> > 【论文】解决长尾数据、正负样本不均衡问题

【论文】解决长尾数据、正负样本不均衡问题

2021-11-05 20:58:14 作者：互联网

1 数据增强

采用数据增强，扩充少样本、正样本类别的数量

缺点：实验效果并不好，对少样本的数据增强在某种程度上加了过量噪声。

ICCV2017 RBG和Kaiming大神的新作

类别不均衡会带来什么后果呢？引用原文讲的两个后果：

(1) training is inefficient as most locations are easy negatives that contribute no useful learning signal;

(2) en masse, the easy negatives can overwhelm training and lead to degenerate models.

意思是负样本数量太大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化方向并不是我们所希望的那样。

针对类别不均衡问题，作者提出一种新的损失函数：focal loss，这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

介绍focal loss之前，先来看看交叉熵损失，这里以二分类为例，原来的分类loss是各个训练样

标签：长尾,分类,loss,样本,损失,正负,easy,类别
来源： https://blog.csdn.net/weixin_45140119/article/details/121166764