其他分享
首页 > 其他分享> > 论文笔记之Removing the Background by Adding the Background: Towards Background Robust Self-supervised Vid

论文笔记之Removing the Background by Adding the Background: Towards Background Robust Self-supervised Vid

作者:互联网

提出背景擦除(Background Erasing)方法来减轻模型对背景的依赖,从而使模型更关注动作变化。
CVPR2021
论文地址:https://arxiv.org/abs/2009.05769

1. 总述

自监督学习通过对数据本身的监督,在提高深层神经网络的视频表现能力方面显示出巨大的潜力。然而,目前的一些方法往往会存在着背景欺骗,即预测结果高度依赖于视频背景而不是运动,使得模型容易受到背景变化的影响。
在这里插入图片描述
背景欺骗的图示:在真实的世界中,一个动作可以在不同的地点发生,而不是某个场景下只是某种动作。目前在主流数据集上训练的模型往往只看到一些背景线索来给出预测,而忽略了运动模式才是实际上在定义“动作”。

为了减轻模型对背景的依赖,作者通过添加背景来消除背景影响,具体来说:

即本文提出的方法——背景擦除(Background Erasing-BE)。而且这个方法实现比较简单和简洁,可以不费吹灰之力地添加到大多数SOTA方法中。

2. 背景擦除(BE)的架构

在这里插入图片描述

由于原视频和干扰视频在运动模式上彼此相似,但在空间上彼此不同,当它俩的特征更接近时,模型将被提升以抑制背景噪声,产生对运动变化更敏感的视频表示。

这样做背景发生了变化,但是运动模型并没有变:
在这里插入图片描述

随机选择一个视频内静态帧作为噪声添加到其他帧中。产生的干扰视频的背景发生了变化,但光流梯度基本没有变化,表明运动模式得到了保留。

如何拉近原始视频和干扰视频特征?
对于不同的自监督方法(Handcrafted Pretext和Contrastive Learning):

3. 实验

(1)在UCF101和HMDB51数据集上,将BE作为正则化项与四种现有方法进行结合的Top-1精度(%)
在这里插入图片描述
(2)在 UCF101和HMDB51数据集上的不同干扰策略的Top-1 accuracy (%)
在这里插入图片描述

标签:Adding,Towards,干扰,视频,特征,背景,模型,Background
来源: https://blog.csdn.net/haha0825/article/details/115184685