其他分享
首页 > 其他分享> > 后门触发器之频域角度——Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

后门触发器之频域角度——Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

作者:互联网

Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

尚未发布,收录于arxiv—— 论文链接

本文指出,现有的后门攻击在频域领域上的研究不足。因此本文提出通过频域信息来辨别后门样本,并以此构建了频域不可见的后门样本。

一个直观的想法就是,后门样本与自然图像的概率分布不同。由于后门样本相比自然图像需要添加特定的trigger pattern,从而触发深度模型给出指定的输出结果。这种添加的特定的trigger pattern,也许能够在频域上表达出来。
本文结果也证实了这一点,后门样本相比正常样本,会在频域上存在高频伪影。通过高频伪影能够达到98.50%的后门检出率。

高频伪影

本文首先使用DCT(离散余弦变换)将样本转换到频域。然后绘制热力图。研究发现,自然图像的能量大多集中在低频部分,而后门样本中往往存在较多的高频部分信息。
将一个trigger pattern添加到图像上,就相当于将trigger pattern的频域信息插入正常图像的频域。

比如下图就是正常样本与后门样本的频域对比。下图中,上半部分是从cifar10中取10000张图片生成获得的平均频域图。下半部分从PubFig中取1000张获得的平均频域图。
后门样本的频域对比

后门检测

有了【频域】这一信息,就可以利用这一区别来进行后门样本的检出。
本文使用的是监督学习的方式。因此也就是常见的二分类了。
方式:

结果:
98.5%的后门样本检出率。

这一步我是存在疑虑的。这一步其实和——之前说道的频域的关系不大,其实就是使用正常样本,和现存的后门样本的实现,做一个二分类就行了。所以频域的信息的描述没什么用处。
可能论文是对图像样本进行DCT转换之后再进行训练的吧,但是文中没有提及。

之后还对这种检测方式对不同训练集的迁移性进行了实验,得出较为满意的结果。

创建平滑的触发器 Creating Smooth Triggers

平滑样本——也就是减少样本的高频信息——的创建,是基于优化的方式进行的。这【PS:是因为,直接设计的成功率不高】
看公式可以看出,就是正常的后门样本训练的优化目标函数,加上 一个约束项。这个约束项的目的就是惩罚高频。
在这里插入图片描述
改写目标函数
在这里插入图片描述
这里 r = δ ∗ g r=\delta * g r=δ∗g,其结果是扰动与低通滤波器卷积后的结果。

在这里插入图片描述
通过这种方式构建出的后门样本,可以看出,不存在高频伪影
在这里插入图片描述

然后
从决策边界来看。使用低通滤波器设计的后门样本与正常样本的距离更近,这意味着它更难被检测。
防御方式就是:使用低通滤波器设计的后门样本,加入训练集,进行训练微调。
在这里插入图片描述

个人感觉对该后门样本的检测实验较少,仅仅使用了Detecting AI trojans using meta neural analysis这篇论文中的方式。关于这篇论文我没有看过,就不予评价了。

总结

本文考虑了频域的角度,提出了一种【换汤不换药】的后门检测方式,以及一种新的后门样本生成方式。

标签:后门,Rethinking,方式,Triggers,Attacks,样本,伪影,频域,高频
来源: https://blog.csdn.net/weixin_48654804/article/details/120621858