2020cvpr论文阅读之Efficient Adversarial Attacks for Visual ObjectTracking 视觉目标跟踪的高效对抗攻击
作者:互联网
2020cvpr论文阅读之Efficient Adversarial Attacks for Visual ObjectTracking
视觉目标跟踪的高效对抗攻击
摘要
现有的最先进的物体跟踪器,即基于暹罗的跟踪器,使用DNNs来获得高精度。然而,视觉跟踪模型的鲁棒性很少被研究。在本文中,我们分析了基于暹罗网络的目标跟踪器的弱点,并把反例扩展到视觉目标跟踪。我们提出了一种端到端网络FAN(快速攻击网络),它使用一种新的漂移损失结合嵌入的特征损失来攻击基于暹罗网络的跟踪器。在单个GPU下,FAN训练速度高效,攻击性能强。
*
介绍*
检测框架就是RPN和RPN++
检测任务中主要是分类问题,比如FasterRCNN,目标跟踪中VOT是搜索最为相似的区域,是相似性度量问题。但对抗攻击完全不同。
首先定义目标攻击和非目标攻击,然后给出端与端的快速对抗网络,结合漂移损失和嵌入特征损失。对其进行有无针对性的对抗攻击。
本文主要贡献::(1)据我们所知,我们是第一个对视觉对象跟踪(VOT)任务执行目标攻击和非目标攻击的人。我们分析了基于暹罗网络的跟踪器的弱点,并给出了该任务中目标攻击和非目标攻击的定义。(2)提出了一种统一的端到端攻击方法:FAN(快速攻击网络)。我们设计了一种新的漂移损失来有效地实现非目标攻击,并应用嵌入的特征损失来实现目标攻击。最后,我们结合这两个损失函数来共同攻击VOT任务。(3)经过三个小时的训练,FAN可以在不微调网络参数的情况下成功攻击VOT和OTB数据集。在推理上,FAN可以在10ms内快速产生对抗性例子,比迭代优化算法快得多。
产生对抗的例子
V = {I1,…,Ii,…,In}是包含n个视频帧的视频。为简单起见,我们以一个跟踪对象为例,因此Bgt= {b1,…,bi,…,bn}用于表示对象在每个帧中的真实位置。当给定初始状态时,视觉对象跟踪将预测该对象在后续帧中的位置Bpredof。对于不同的数据集,预测的输出是不同的。一般用四点bi∈ R4are来表示盒子
目标攻击
对抗视频引导跟踪器沿指定轨迹C跟踪物体,即∀i,||ˆci cspec I | | 2≤ε,s . t . ci =中心(CW P(f(z,xi))。center()通过预测框获取预测中心。预测中心和目标中心之间的欧几里得距离应该很小。这里我们把ε设为20像素。
非目标攻击
对抗视频V导致对抗轨迹Battack= {CW P(f(z,Xi))} n I = 1偏离物体的原始轨迹Bgt。当预测盒和地面真值盒的IOU为零,即IOU(Battack,Bgt) = 0时,我们认为非目标攻击成功。
漂移损失攻击
基于暹罗网络的跟踪器高度依赖全卷积网络生成的响应图来预测对象的位置。因为SiamFC在预测物体位置时使用了一个搜索区域x,所以我们可以攻击这个搜索区域来实现非目标攻击。随着时间的推移,跟踪器将累积预测的轻微偏移,直到跟踪器完全失去对象。
c代表响应图中的最高分。对于一个训练有素的追踪者来说,干净例子的反应图一般集中在中心区域(绿色区域)。因此,我们提出了一个漂移损失,它会产生对抗性的扰动,使S的激活中心漂移:
公式1
其中S代表响应分数,y∑(1,1)代表响应图S中网格的标号,响应图S的中间部分(绿色区域)标为1,其余为-1。为了生成对抗性示例,非中间响应图的最大响应值大于地面真实的最大响应值,因此响应图的分数损失可以写成:
公式2
其中p ∈ S代表响应图中的每个位置。预测框的偏移量取决于响应图中激活中心的偏移量。我们希望激活中心尽可能远离中心,因此距离损失可以表示为:
公式三
其中,pi max= arg max p∈Si(s[p]),i = +1,1表示反应图阳性区域或阴性区域中最大激活分数的位置。δ是小实数,β1控制距离损失中的权重。ξ控制激活中心的偏移程度。通常激活中心离开中心区域。由分数损失和距离损失组成的漂移损失可以写成:
公式4
嵌入式特征丢失攻击
因为目标攻击需要跟踪器沿着指定的轨迹跟踪,所以它不同于非目标攻击。3.2节中的漂移损失很容易实现非目标攻击,但其攻击方向是随机的,无法实现目标攻击。目标攻击的输入是视频V和指定轨迹的中心Cspec。由于对象和背景之间的巨大差异,候选图像Xr+1和样本图像z沿着指定轨迹的响应值将在背景区域中逐渐下降到更低。因此,有针对性的攻击很快就会失败。
为了有效的定向攻击,我们需要增加响应值。如图2 b所示,我们希望最小化敌对样本特征和特定轨迹区域之间的L2距离。因此,我们提出了产生对立图像z和xR+1的嵌入特征损失。生成的对抗性例子的特征与嵌入图像e的特征相近。
Lembed(G) = kϕ(q + G(q)) − ϕ(e)k2,
在等式5中,e代表指定的轨迹区域,q∑{ z,xR+1}代表输入视频区域。z和xR+ 1表示要跟踪的样本帧和R+1帧。ϕ代表特征函数,G(q)代表对抗性扰动。特征提取后,对抗图像和嵌入图像的特征应尽可能接近,以实现有针对性的攻击。
在训练阶段,嵌入式图像的选择非常重要。例如,牧羊犬和雪橇犬之间的特征距离小于牧羊犬和埃及猫之间的特征距离。在实际攻击中,我们发现攻击一个视频帧到一个物体上会产生显著的扰动。我们用高斯噪声代替e中的物体特征来优化等式5,但是指定的轨迹保持不变。
统一且实时对抗
如图3所示,我们训练一个GAN来生成对抗性的例子。必然地,产生对抗性的干扰可以被视为一项图像翻译任务[24]。我们为候选帧中的候选图像生成对抗性扰动,这在空间中更难感知。我们将GAN [36]循环作为一个生成器来学习从自然图像到敌对扰动的映射。我们采用了文献[15]中提出的生成器,并使用九个块来生成对抗性扰动。对于鉴别器,我们使用PatchGAN [13],它使用重叠的图像补丁来确定图像是真还是假。
损失函数的辨别器被定义为
图3。F-AN的训练和推理框架。在a)中,我们使用训练有素的暹罗架构(黄色区域+卷积参数)来训练生成器和鉴别器。发生器和鉴别器的损耗分别由紫色部分和蓝色部分突出显示。我们可以通过调整发电机的失重来实现目标攻击和非目标攻击。对于非目标攻击b),我们只对候选图像IC中的搜索区域x产生对抗性扰动。对于目标攻击c),我们同时攻击样本图像z和特定搜索区域(c中的蓝色部分),这是由特定的轨迹决定的。
训练阶段,我们通过最小化等式6来训练鉴别器。为了使发生器生成的图像更加逼真,发生器的损耗可以表示为:
公式1
此外,我们使用L2距离作为度量来最小化相似性的损失,使得敌对图像在视觉空间中更接近干净图像。相似性的丧失可以表示为:
公式2
最后生成器的完整目标表示为
公式3
我们提出了一种统一的网络体系结构,通过调整超参数可以实现有针对性的攻击和无针对性的攻击。β1,β2make Ldist
和lscore大致相等。因此,不需要特别调整。ξ控制激活中心的偏移程度。α1和α3控制非目标攻击。我们固定α3,从视觉质量上调整α1。α2嵌入图像特征的控件。我们测试了0.05-0.1之间的值,精度分数提高了10个百分点。对于目标攻击,我们不需要漂移损失,所以将α3设置为0,α1= 0.0024,α2= 0.1。对于非目标攻击,我们将α2设置为0,α1= 0.0016,α3= 10。在等式3中,我们设置β1= 1,δ= 1∫1010,ξ = 0.7。在等式4中,β2设置为10。我们使用亚当算法[22]交替优化发生器G和鉴别器D。使用GPU Titan XP,我们可以通过在ILSVRC 2015数据集上迭代大约10个纪元(大约3个小时)来获得最佳权重。
由于当前帧中跟踪器的预测框强烈依赖于前一帧的结果,我们可以使预测框产生小的误差偏移,并最终远离地面真实轨迹。我们只为非目标攻击的候选图像x添加扰动。对于目标攻击,我们通过增加对抗扰动,在样本状态z和候选图像x中嵌入嵌入图像的特征。虽然对抗性攻击处理的是大量的视频,但是生成器可以在几毫秒内生成对抗性的例子。这使得我们能够完成视觉目标跟踪的实时对抗攻击
实验
标签:ObjectTracking,Efficient,2020cvpr,跟踪器,目标,对抗性,攻击,图像,我们 来源: https://blog.csdn.net/weixin_44287997/article/details/111225734