首页 > 其他分享> > 后门触发器之频域角度——Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

后门触发器之频域角度——Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

2021-10-06 12:02:17 作者：互联网

Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective

尚未发布，收录于arxiv—— 论文链接

本文指出，现有的后门攻击在频域领域上的研究不足。因此本文提出通过频域信息来辨别后门样本，并以此构建了频域不可见的后门样本。

一个直观的想法就是，后门样本与自然图像的概率分布不同。由于后门样本相比自然图像需要添加特定的trigger pattern，从而触发深度模型给出指定的输出结果。这种添加的特定的trigger pattern，也许能够在频域上表达出来。
本文结果也证实了这一点，后门样本相比正常样本，会在频域上存在高频伪影。通过高频伪影能够达到98.50%的后门检出率。

高频伪影

本文首先使用DCT（离散余弦变换）将样本转换到频域。然后绘制热力图。研究发现，自然图像的能量大多集中在低频部分，而后门样本中往往存在较多的高频部分信息。
将一个trigger pattern添加到图像上，就相当于将trigger pattern的频域信息插入正常图像的频域。

比如下图就是正常样本与后门样本的频域对比。下图中，上半部分是从cifar10中取10000张图片生成获得的平均频域图。下半部分从PubFig中取1000张获得的平均频域图。

后门检测

有了【频域】这一信息，就可以利用这一区别来进行后门样本的检出。
本文使用的是监督学习的方式。因此也就是常见的二分类了。
方式：

数据集：1、使用正常样本。2、对正常样本进行操作，生成存在高频伪影的样本作为后门样本。后门样本的生成就多种多样了——随机添加白色块彩色块噪声，随机混合随机阴影等等方式。这些方式最好和正常的后门样本构建的方式存在相似。数据集的构建就是核心
一个枯燥范围没有新意的训练过程。

结果：
98.5%的后门样本检出率。

这一步我是存在疑虑的。这一步其实和——之前说道的频域的关系不大，其实就是使用正常样本，和现存的后门样本的实现，做一个二分类就行了。所以频域的信息的描述没什么用处。
可能论文是对图像样本进行DCT转换之后再进行训练的吧，但是文中没有提及。

之后还对这种检测方式对不同训练集的迁移性进行了实验，得出较为满意的结果。

创建平滑的触发器 Creating Smooth Triggers

平滑样本——也就是减少样本的高频信息——的创建，是基于优化的方式进行的。这【PS：是因为，直接设计的成功率不高】
看公式可以看出，就是正常的后门样本训练的优化目标函数，加上一个约束项。这个约束项的目的就是惩罚高频。
在这里插入图片描述
改写目标函数

这里 r = δ ∗ g r=\delta * g r=δ∗g，其结果是扰动与低通滤波器卷积后的结果。

在这里插入图片描述
通过这种方式构建出的后门样本，可以看出，不存在高频伪影

然后
从决策边界来看。使用低通滤波器设计的后门样本与正常样本的距离更近，这意味着它更难被检测。
防御方式就是：使用低通滤波器设计的后门样本，加入训练集，进行训练微调。
在这里插入图片描述

个人感觉对该后门样本的检测实验较少，仅仅使用了Detecting AI trojans using meta neural analysis这篇论文中的方式。关于这篇论文我没有看过，就不予评价了。

总结

本文考虑了频域的角度，提出了一种【换汤不换药】的后门检测方式，以及一种新的后门样本生成方式。

标签：后门,Rethinking,方式,Triggers,Attacks,样本,伪影,频域,高频
来源： https://blog.csdn.net/weixin_48654804/article/details/120621858