Background Suppression Network for Weakly-supervised Temporal Action Localization概述
作者:互联网
0. 前言
1.针对的问题
弱监督视频动作定位中,这篇论文之前的方法聚合帧级别的类分数,以产生视频级别的预测并从视频级别的动作中学习。此方法无法完全模拟问题,因为背景帧被迫错误地分类为行动类别,无法准确预测视频级标签。
2.主要贡献
•引入了一个表示背景的辅助类,它是建模弱监督时间动作定位问题的一个缺失元素。
•提出了一种不对称的双分支权重共享架构,通过一个过滤模块和对比目标来抑制来自背景帧的激活。
•BaS-Net在最流行的基准THUMOS'14和ActivityNet上的实验中优于当前最先进的WTAL方法。
3.方法
引入了一个背景辅助类,具有非对称训练策略的双分支权重共享体系结构,两个分支一个默认背景类为1,因为每个未修剪的视频都包含背景帧,一个默认背景类为0,因为提前在过滤模块中将背景帧给过滤掉了。这使得BaS-Net能够抑制来自背景帧的激活,以提高定位性能。模型流程如下:
(a)特征提取,将每个输入视频vn分为16帧不重叠的Ln段,即vn={Sn,l}Lnl=1,为了应对视频长度的较大变化,从每个视频中采样了固定数量的T段,然后,将采样的RGB和flow分段输入到预训练的特征提取器中,以分别生成F维的特征向量,然后,将RGB和flow特征连接起来以构建完整的特征xn,t,然后将它们沿着时间维度堆叠以形成长度为T的特征图。
(b)Base branch,预测片段级类别得分,通过将特征图输入到一维卷积层中来生成CAS,然后通过top-k均值技术聚合片段级得分得到视频级类分数,最后输入softmax得到每个类别的概率。通过一个二进制交叉熵损失函数训练网络。在这一分支中,所有视频的类别标签中的背景类别均设为1。
(c)抑制分支主要是多了一个过滤模块,前面包含一个过滤模块,通过对背景类使用相反的训练目标进行训练来抑制背景帧。该模块由两个1D卷积层和sigmoid函数组成,过滤模块的输出是前景权重,范围从0到1,来自过滤模块的前景权重在时间维度上与特征图相乘以过滤出背景帧。其余操作与Base分支相同,只是输入特征图不同。在这一分支中,所有视频的类别标签中的背景类别均设为0。
标签:视频,Weakly,模块,Localization,背景,过滤,Background,类别,分支 来源: https://www.cnblogs.com/lhiker/p/16378678.html