其他分享
首页 > 其他分享> > ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

作者:互联网

1.针对的问题

  现有WTAL方法通常利用现成的段级特征,这些特征存在空间不完整性和时间不一致性,具体来说,空间不完整性指动作片段经常会出现遮挡、模糊、外场等问题,因此缺乏特定的空间细节,时间不一致性指一个完整的动作通常跨越一个较长的时间窗口,而一个较短的动作片段不足以观察该动作的全部动态,这限制了这些方法的性能。

2.主要贡献

  1.提出了一种新的WTAL图卷积网络,即ACGNet,它通过隐式利用互补信息并联合解决空间不完整性和时间不一致性问题,极大地增强了片段级动作表示的可分辨性。

  2.考虑多个重要因素(即片段相似性、时间扩散和图稀疏)来构造初始ACG。此外,还提出了一种新的“简单正例挖掘”方法,使图形网络的训练变得可行和实用,使ACGNet能够灵活地注入现有的框架中。

  3.为几种最新的WTAL方法嵌入了提出的ACGNet。在两个具有挑战性的数据集上进行的大量实验表明,它能够在很大程度上进一步推动WTAL的SOTA。

3.方法

  通过一个简单而有效的图卷积网络隐式地解决了这两个问题。提出的动作互补图网络(ACGNet)有助于动作片段在整个未修剪的长视频中利用其他片段的互补线索。在应用ACGNet之后,可以根据增强的特征更容易地对难例进行分类。特别地,不仅考虑分段级相似性,而且在构造初始动作补充图(ACG)时也减轻了时间上接近段的负面影响。此外,使图足够稀疏,以保留信息量最大的连接。通过图卷积,将高质量片段的互补信息传播到低质量片段,从而增强每个片段的动作表示。换言之,其他片段提供的补充信息被视为监督,以了解WTAL场景中更多的区别性特征。最重要的是,由于精心设计的损失函数ACGNet可以作为一个通用插件模块工作,灵活地嵌入到不同的WTAL框架中,进一步显著增强了SOTA的性能。

  针对具体问题来说:

  1.片段相似图。未经修剪的长视频可能包含多个动作示例,由于场景、照明条件、拍摄角度、遮挡等的不同,差异很大。但是,同一动作类别的多个示例之间始终存在相似的运动模式,其中,一些高质量或易于分类的片段记录了干扰较少的更完整的动作示例,提供了相对稳定的信息,而低质量的片段也可以相互补充。例如,属于同一动作类别的两个时间段可能在不同区域被遮挡。在这种情况下,一方可以帮助另一方感知在其自身片段中可见的区域。因此,作者希望在所有段之间传播各种互补信息。为此,作者首先通过考虑片段级特征之间的相似性来构造片段相似图。文中通过两个原始段级特征之间的余弦距离来度量它们的相似性,并通过设置第i个节点和第j个节点之间的边权值(即Asij)来构造相似性图Gs。

  2.时间扩散图。由于在连续段之间存在高度的时间依赖性,因此作者在构造图时也考虑了时间信息。在自然界中,时间上接近的片段通常具有较高的概率属于相同的动作,并且往往有较高的相似性,即相应的边权值应该相对较大。此外,在实际应用中,特征提取网络中的时间卷积(即作者实验中的I3D)可以在较短的时间窗口内融合相邻段之间的时间信息。这导致了时间接近段之间更高的特征相似性(即,当i→j时,Asij趋于较大)。因此,如果作者基于上述事实构造时间图,并将其直接添加到段相似度图中,互补信息的传播可能会在较短的时间窗口内受到限制,不能在距离很远的段之间成功共享。例如,包含高质量判别动作示例的第i段Si不能补充其他在时间上远离Si的劣质示例(属于同一动作)。因此,作者试图尽可能分散互补信息,以便在未经修剪的长视频中增强更多片段的可分辨性,从而提高定位性能。为此,作者通过在更远的节点之间施加更大的边权重来构造时间扩散图。

  总体框架:

  给定一个输入视频V,首先将其平均分成固定数量的T个短时间段,用于处理视频长度的巨大变化。然后,使用广泛采用的视频特征提取网络,例如I3D网络,提取这些片段的特征。ACGNet接收原始特征F作为输入,将这些特征作为节点,构造出片段相似图和时间扩散图,将两个子图结合得到最终的动作补充图G,但是这样生成的图G将十分密集,如果我们直接学习基于这个密集图的增强特征,对于每个节点/片段,我们可能会获得相似的全局视频级特征,因为每个节点都需要感知所有剩余节点的特征。这隐含地妨碍了段级特征的可辨别性,导致定位结果不太准确。因此,有必要使图足够稀疏,只保留那些信息量最大的节点。所以需要经过一个图稀疏的过程,稀疏后的图一方面通过图平均得到平均特征FAVG,另一方面通过图卷积得到FGCN,将F,FAVG和FGCN相加得到增强特征F',另外作者还提出了一个EPM损失,该损失将“简单阳性”片段视为特征空间中的类质心,目标是将其他类似片段推近它们。使得更多的动作片段变得更容易区分,最终获得更准确的定位结果。

标签:片段,Weakly,Network,动作,特征,ACGNet,时间,Action,节点
来源: https://www.cnblogs.com/lhiker/p/15980655.html