其他分享
首页 > 其他分享> > Action Graphs: Weakly-supervised Action Localization with Graph Convolution Networks总结

Action Graphs: Weakly-supervised Action Localization with Graph Convolution Networks总结

作者:互联网

1.针对的问题

  在弱监督动作定位领域,这篇论文之前的方法没有明确利用视频片段之间的相似性来进行定位和分类预测,但是作者认为,在没有帧级标注的情况下,弱监督系统必须依赖视频时序段之间的相似性提示。具体来说,必须(1)利用不同动作类别的前景片段之间的差异来正确分类视频;(2) 使用相同动作的前景片段之间的相似性/关系来确定动作的完整范围;(3)推断不同动作视频片段之间的相似部分代表背景片段。

2.主要贡献

(1) 一种新的用于弱监督动作定位的图卷积方法。方法基于一个外观和运动相似图,是第一个在弱监督动作定位设置中使用图卷积的方法。

(2) 分析了模型的每个组成部分,探索了其他基于图的替代方案,并与其他非基于图的方法进行了定量和定性比较。

(3) 在弱监督的环境下,在一些广泛使用的动作检测数据集,THUMOS14[15]和ActivityNet 1.2[7]上推进了SOTA,并且是第一个在Charades[27]上展示结果的。

3.方法

  主要思想是明确建模视频时序段之间的相似关系,以便对视频中的动作进行分类和定位。本文中使用图卷积网络(GCN)实现这一点。

  将视频中的每个片段表示为图中的一个节点,节点之间的边通过它们的相似性进行加权。每个片段的特征表示将转换为与其连接的所有线段的加权平均值,权重基于学习的边强度。然后利用这些加权平均特征来学习基于多示例学习的视频分类器。使用片段之间的外观和运动相似性来确定边权重:具有相似RGB和光流特征的两个节点之间的边比具有不同RGB和光流特征的两个节点之间的边更强。

  模型流程如下:

  使用一个预先训练好的I3D网络来提取视频中每个时序段的输入特征。得到两个l×1024特征向量,一个是RGB特征,一个是光流特征,将两个向量连接起来得到一个l×2048特征向量,其中l是视频中输入时序段的数量,2048是特征维度。

  得到的特征先通过一个简单的仿射函数φ,在φ上施加协同活动相似度损失,以便鼓励每个视频类的显著部分之间具有较高的边权重,即鼓励前景段之间的边权重高于前景和背景段之间的边,将经过φ学习后的两个片段特征计算余弦相似度,以此作为两个片段的相似度,将每个时序段特征表示为一个图节点,节点之间的边根据学习到的相似度进行加权,对得到的图施加L1稀疏性损失,使得图的边是稀疏的,并且可以将判别时序段聚集在一起,同时,删除权重较低的边。

  段级分类预测是通过对这个图进行推理做出的。在测试期间,对分段级预测进行阈值化,以获得活动定位预测。使用多实例学习(MIL)损失来监督分类。

标签:视频,片段,Weakly,Convolution,动作,特征,时序,之间,Action
来源: https://www.cnblogs.com/lhiker/p/16190586.html