【论文】Know Your Surroundings: Exploiting Scene Information for Object Tracking -2020
作者:互联网
Abstract
目前最先进的跟踪器只依赖于目标外观模型来定位每个帧中的对象。然而,在出现例如快速的外观变化或存在干扰器对象的情况下,这种方法很容易失败,因为仅有目标外观模型不足以进行鲁棒跟踪。 在这种情况下,了解周围场景中其他物体的存在和位置是非常有益的。 这些场景信息可以通过序列传播,例如,可以显式地避免干扰对象并消除目标候选区域。
在本文中,我们提出了一种新的跟踪体系结构,它可以利用场景信息进行跟踪。 我们的跟踪器表示密集的局部状态向量等信息,例如,如果局部区域是目标、背景或干扰器,则可以进行编码。 这些状态向量通过序列传播,并结合外观模型输出来定位目标。 我们的网络通过直接最大化视频段的跟踪性能来有效地利用场景信息。 所提出的方法在3个跟踪基准上设置了一个新的最先进的状态,在最近的GOT-10k数据集上实现了63.6%的AO评分。
1. Introduction
Generic object tracking是计算机视觉的基础问题之一,有着广泛的应用。 任务是估计目标对象在视频序列的每个帧中的状态,只考虑其初始外观。 目前的大多数方法[3,8,31,34,25,16,37]通过在初始框架中学习目标的外观模型来解决这个问题。 然后将该模型应用于后续帧中,通过区分目标的外观和周围背景来定位目标。 在实现令人印象深刻的跟踪性能[29,23]的同时,这些方法只依赖于外观模型,而不使用场景中包含的任何其他信息。
相反,人类在追踪物体时利用了更丰富的线索。 我们对场景有一个整体的看法,不仅考虑到目标对象,而且还不断地意识到场景中的其他对象。 这些信息在定位目标时很有帮助。 如果场景杂乱,干扰器对象,或当目标经历快速的外观变化。例如图1中的示例。 只给出最初的目标外观,由于干扰物的存在,很难找出目标。然而,如果我们也利用以前的框架,我们可以很容易地检测到干扰物的存在。 然后可以将这些知识传播到下一个帧,以便可靠地定位目标。虽然现有的方法用先前跟踪的帧更新外观模型,但这种策略本身无法捕获场景中其他对象的位置和特征。
在这项工作中,我们的目标是超越传统的逐帧检测跟踪。 我们提出了一种新的跟踪体系结构,它可以通过序列传播有价值的场景信息。 这些信息用于在每个帧中实现改进的场景感知目标预测。 场景信息使用一组密集的局部状态向量来表示。 这些编码有关当地区域的有价值的信息,例如。 区域是否对应于目标、背景或干扰器对象。 当区域通过序列移动时,我们利用帧之间的密集对应映射来传播相应的状态向量。 因此,我们的跟踪器“意识到”场景中的每个对象,并且可以使用这些信息,例如。 避免干扰物。 该场景知识,以及目标外观模型,用于预测每个帧中的目标状态。 然后使用递归神经网络模块更新状态表示捕获的场景信息。
贡献:我们的主要贡献总结如下。(Ⅰ)我们提出了一种新的跟踪体系结构,它利用丰富的场景信息,表示为密集的局部状态向量。(Ⅱ)引入传播模块,通过预测软对应,将状态映射到后续帧。(Ⅲ)我们开发了一个预测模块,有效地将目标外观模型的输出与传播的场景信息结合起来,以便检测目标位置。(Ⅳ)通过集成递归神经网络模块,用新信息更新状态。(Ⅴ)训练我们的网络,以直接最大化跟踪性能的完整视频段。
我们对5个具有挑战性的基准进行了全面的实验:VOT-2018[29]、GOT-10k[23]、TrackingNet[36]、OTB-100[45]和NFS[14]。 我们的方法在所有五个数据集上都取得了最先进的结果。 在具有挑战性的GOT-10k数据集上,我们的跟踪器获得63.6%的平均重叠(AO)分数,比以前的最佳方法高出2.5%。 我们还提供了一个消融研究,分析关键组件在我们的跟踪架构中的影响。
2. RelateWork
大多数跟踪方法通过学习第一帧中目标的外观模型来解决这个问题。 学习目标外观模型的一种流行方法是判别相关滤波器(DCF)[5,21,10,9,26,33]。这些方法利用卷积定理有效地训练傅里叶域中的分类器,使用输入图像的圆移作为训练数据。这些方法利用卷积定理有效地训练傅里叶域中的分类器,使用输入图像的圆移作为训练数据。 另一种方法是在第一帧中训练或微调几层深度神经网络,以执行目标背景分类[37,8,3,40]。MDNet在线[37]三个完全连接的层,而DiMP[3]采用meta-learning formulation 来预测分类层的权重。近年来,Siamese networks[2,32,31,44,18]受到了极大的关注。 这些方法通过学习相似性度量来解决跟踪问题,然后使用它来定位目标。
上述判别方法利用场景中的背景信息来学习目标外观模型。此外,在Siamese trackers[52,30,51]中,还尝试将背景信息集成到外观模型中。然而,在许多情况下,干扰器对象与以前的目标外观无法区分。因此,在这种情况下,单个目标模型不足以实现鲁棒跟踪。此外,在快速运动的情况下,很难快速地将目标模型适应新的干扰器。 与这些工作相反,我们的方法显式地编码关于不同图像区域的局部信息,并通过密集匹配通过序列传播这些信息。更多地与我们的工作有关,[46]目的是利用现场干扰器的位置。 然而,它使用手工制作的规则将图像区域独立地分类为背景和目标候选,并使用线性运动模型来获得最终的预测。 相反,我们提出了一个完全可学习的解决方案,其中图像区域的编码是通过基于外观的帧间密集跟踪来学习和传播的。 此外,我们的最终预测是结合显式背景表示和外观模型输出。
除了外观线索外,一些方法还研究了光流信息用于跟踪的使用。 Gladh等人在构建目标模型时[17]利用从光流图像中提取的深运动特征来补充外观特征。Zhu et al [53]使用光流将特征映射从以前的帧扭曲到参考帧,并将它们聚合,以学习目标外观模型。然而,这两种方法都利用光流来提高目标模型的鲁棒性。 相反,我们显式地使用密集的运动信息来传播关于背景对象和结构的信息,以补充目标模型。
一些工作也研究了使用递归神经网络(RNN)进行目标跟踪。 Gan et al[15]使用RNN使用图像特征和以前的目标位置直接回归目标位置。 Ning et al[38]利用YOLO[39]检测器生成初始对象建议。 这些建议以及图像特征通过LSTM[22]获得目标框。Yang et al[49,50]使用LSTM更新目标模型,以通过序列解释目标外观的变化。
3. Proposed Method
我们开发了一种新的跟踪体系结构,能够利用场景信息来提高跟踪性能。 虽然目前最先进的方法[8,3,31]只依赖目标外观模型来独立地处理每个帧,但我们的方法也从以前的帧传播有关场景的信息。 这提供了关于环境的丰富线索,例如。 干扰器对象的位置,这大大有助于目标的定位。
图2提供了跟踪体系结构的可视化概述。 我们的跟踪器内部跟踪场景中的所有区域,并传播有关它们的任何信息,以帮助目标的定位。 这是通过对目标邻域中的每个区域保持一个状态向量来实现的。 例如,状态向量可以编码特定补丁是否对应于可能欺骗目标外观模型的目标、背景或干扰器对象。 当对象通过序列移动时,通过估计连续帧之间的密集对应来相应地传播状态向量。 然后将传播的状态向量与目标外观模型融合,以预测用于定位的最终目标置信度值。 最后,利用预测器和目标模型的输出,利用卷积门控递归单元(ConvGRU)[1]对状态向量进行更新。
3.1 Tracking with Scene Propagation
我们的跟踪器预测基于两个线索:(1)当前帧中的外观和(2)随着时间的推移传播的场景信息。 外观模型τ旨在把目标对象从背景中提取出来。 通过将从帧t中提取的深度特征图作为输入,外观模型τ预测分数图。 在这里,分数在每个空间位置 表示该位置成为目标中心的可能性。
目标模型具有从遮挡中恢复的能力,并提供long-term robustness。然而,它忽略了周围场景的内容。为了提取这些信息,我们的跟踪器为目标邻域中的每个区域维护一个状态向量。具体地,对于深特征表示中的每个空间位置r∈Ω,我们保持一个S维状态向量,使得。状态向量包含有关单元的信息,这有利于单个目标跟踪。 例如,它可以编码一个特定的单元格是否对应于目标、背景,或者实际上是一个看起来类似于目标的干扰器。 请注意,我们没有显式地强制执行任何这样的编码,但让h是一个泛型表示,其编码是通过最小化跟踪损失来训练的端到端。
使用小网络在第一帧中初始化状态向量Υ该网络以第一帧目标注释作为输入。 网络生成指定目标位置的单通道标签映射。 这是通过两个卷积层获得初始状态向量。 状态向量包含特定于其相应图像区域的局部信息。 因此,当对象通过一个序列时,我们相应地传播它们的状态向量。 给定一个新的帧t,我们将状态从以前的帧位置转换为当前帧位置。这是由我们的状态传播模块执行的,
在这里,和分别是来自当前和以前帧的深度特征表示。输出表示空间传播状态,补偿物体的运动和场景中的背景。传播可靠性图表示状态传播的可靠性。也就是说,高表示r处的状态已经被自信地传播。因此,可靠性映射可以用来确定在定位目标时是否信任传播的状态向量。
为了预测目标对象的位置,我们利用外观模型输出和传播状态。后者捕获关于场景中所有对象的有价值的信息,这补充了外观模型中包含的以目标为中心的信息。 我们将传播的状态向量,连同可靠性分数和外观模型预测输入到预测模块P。预测器结合这些信息提供融合的目标置信度分数,
然后,通过选择得分最高的位置,将目标定位在帧t中。 最后,我们使用融合置信度分数以及外观模型输出来更新状态向量,
递归状态更新模块可以使用当前帧信息,从分数映射图例如,重置不正确的状态向量,或将新输入的对象标记为干扰器。 然后使用这些更新的状态向量来跟踪下一帧中的对象。 我们的跟踪程序在Alg.1中很详细。
3.2 State propagation
状态向量包含目标邻域中每个区域的局部信息。 因为这些区域通过一个序列。 物体或相机运动,我们需要相应地传播它们的状态,以补偿它们的运动。 这是由我们的状态传播模块完成的。该模块的输入分别是从以前和当前帧中提取的深度特征映射和。 请注意,深度特征不需要与目标模型使用的特征相同。 然而,我们假设两个特征映射具有相同的空间分辨率。
为了将状态从前一个帧传播到当前帧位置,我们首先计算两个帧之间的密集对应关系。 我们将这种对应表示为概率分布,其中是当前帧中位置的概率,起源于前一帧中的。 密集对应是通过构造一个4D成本体积来估计的,就像在光流接近[12,42,47]中通常做的那样。 成本卷包含来自前一帧和当前帧的每个图像位置对之间的匹配成本。 通过计算前一帧特征中以为中心的3×3个窗口与当前帧特征中的之间的相关性,得到成本体积中的元素。 为了提高计算效率,我们只通过假设每个特征单元的最大位移来构造部分成本体积。
我们通过网络模块处理成本体积,以获得鲁棒的密集对应。我们将前一帧中每个单元的成本体积切片通过两个卷积块,以获得处理后的匹配成本。接下来,我们在当前帧位置上取此输出的Softmax以获得初始对应。softmax操作在当前帧维上聚合信息,并提供两帧之间位置的软关联。为了整合以前帧位置的信息,我们通过另外两个卷积块和在以前的帧位置上取Softmax。这提供了在每个当前帧位置r处所需的概率分布。
帧之间的估计对应性现在可以通过评估与前一帧状态向量相比的以下期望来确定当前帧位置r处传播的状态向量。
当使用传播的状态向量时进行目标定位时,了解特定的状态向量是否有效也是有帮助的,比如如果它已从上一个帧正确传播。我们可以使用该位置的对应概率分布来估计每个位置处的可靠性。在中的单模表明,我们对前一帧中位置的来源有信心。另一方面,均匀分布的意味着不确定性。 在这样的场景中,期望4比以前的帧状态向量降低到一个简单的平均值,导致不可靠的。因此,我们利用分布的Shannon熵的否定来获得状态的可靠性评分,
然后使用可靠性来确定在预测最终目标置信度分数时是否信任状态。
3.3 Target Confidence Score Prediction
在本节中,我们描述了我们的预测模块,它确定了当前帧中的目标位置。我们利用外观模型输出和编码的场景信息来定位目标。 外观模型得分表示位置是目标还是背景,仅基于当前帧中的外观。另一方面,状态向量包含每个位置r的过去信息。例如,它可以编码单元格r是否在前一帧中被归类为目标或背景,跟踪器对该位置的预测有多确定,等等。例如,它可以编码单元格r是否在前一帧中被归类为目标或背景,跟踪器对该位置的预测有多确定,等等。 相应的可靠性评分进一步表明状态向量是否可靠。这可以用来确定在确定目标位置时给状态向量信息多少权重。
对预测器模块P进行训练,有效地结合,,的信息,输出最终目标置信度评分。我们将外观模型输出、传播状态向量和状态可靠性分数沿信道维数,并通过两个卷积块传递所得到的张量。然后通过sigmoid层将输出映射到[0,1]的范围,以获得的中间分数。虽然可以直接使用这个分数,但在遮挡情况下是不可靠的。 这是因为目标对应的状态向量可以泄漏到遮挡对象中,特别是当两个对象缓慢地相互交叉时。 在这种情况下,融合的分数可能会被破坏。 为了处理这一点,我们将通过另一层,该层从评分图中屏蔽区域其中外观模型评分小于阈值。因此,我们让外观模型在遮挡的情况下覆盖预测器输出。 从而得到最终的分数图为。 在这里,是一个指示函数,当时计算为1,否则为0,并且 · 表示元素乘积。注意,掩膜操作是可微的,是在网络内部实现的。
3.4 State update
虽然第3.2节中描述的状态传播将状态映射到新帧,但它不会用有关场景的新信息更新它。这是由递归神经网络模块完成的,该模块在每个时间步骤中演化状态。作为场景的跟踪信息,我们分别输入从外观模型和预测模块中获得的分数和。因此,更新模块可以。 标记一个新的干扰器对象,该对象进入场景或纠正已被错误传播的损坏状态。此状态更新由递归模块( eq. 3)。
更新模块包含一个卷积门控递归单元(ConvGRU)[1,6]。我们将分数和与它们的最大值连在一起,以获得输入到ConvGRU。从上一帧中传播的状态被视为ConvGRU从上一个时间步骤的隐藏状态。
3.5 Target Appearance Model
我们的方法可以与任何跟踪外观模型集成。 在本工作中,我们使用DiMP跟踪器[3]作为我们的目标模型组件,因为它的强大性能。DiMP是一种端到端可训练跟踪体系结构,它预测的外观模型,由单个卷积层的权值参数参数化。 该网络集成了一个优化模块,该模块将以下判别学习损失最小化,
在这里,λ是正则化参数。训练集应变由从训练图像中提取的深度特征映射和相应的目标注释组成。残差函数计算跟踪器预测与地面真相之间的误差。采用不同的数据增强策略,在初始框架中构造训练集。 有关DiMP跟踪器的更多细节,我们参考[3]。
3.6 Offline Training
为了训练我们的体系结构,模拟跟踪场景是很重要的。确保网络可以学会有效地传播场景信息随着时间的推移,并确定如何最好地融合它与外观模型输出是需要的。因此,我们使用视频序列来训练我们的网络。 我们首先从视频中采样一组列帧,我们用它来构造的外观模型。然后,我们采样一个子序列,由连续帧组成,它以及它们相应的目标注释。我们将我们的网络应用于这个序列数据,就像它在跟踪过程中一样。我们首先使用状态初始化器获得初始状态。然后将状态传播到下一个帧(Sec.3.2),用于预测目标分数ςt(Sec.3.3),最后使用预测的分数进行更新(Sec.3.4)。
标签:Information,外观,场景,状态,Exploiting,模型,Object,目标,向量 来源: https://blog.csdn.net/qq_33000453/article/details/111469096