首页 > 其他分享> > 基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

2021-09-21 12:58:55 作者：互联网

WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

ICLR 2021
https://arxiv.org/abs/2102.10369

之前的触发器都是基于噪声或特点模式，容易被人类肉眼发现。因此本文使用基于翘曲的后门触发器，并提出一种新的训练模式，称为“noise”mode（噪声模式）。
与其他后门样本的对比
这一后门样本在不损失攻击性能的前提下保证了隐形性。

Image warping

Image warping是一种应用几何变换使图像发生变形的变换。具体可以看数字图像处理。

WARPING-BASED BACKDOOR ATTACK

主要目标是设计一个注入函数 B B B。
B ( x ) = W ( x , M ) B(x)=W(x,M) B(x)=W(x,M)
M M M就像是一个运动场，定义了目标图像中每个点向后扭曲的相对采样位置。
M M M的设计很关键，需要满足几个性质

Small，以保证不被人类注意到
Elastic，弹性。光滑但是非平坦，用于生成看起来自然的图像
Within image boundary：M需要在图像的边界之内，避免生成可疑的区域

总的来说，就是设计一个扭曲函数 M M M,使得图像以特定的模型扭曲。这种扭曲形式作为特征被NN提取。

M的设计分为三步：
A. 选择control grid：将整个图像分成 k × k k\times k k×k，使用一个参数 s s s来定义 P P P的强度。 ψ ψ ψ表示归一化。
在这里插入图片描述
B.上采样。
C.应用一个剪切函数，使得采样点不落在边界外。

当k＜6，s＜0.75时，warping的影响几乎是不可见的。

不同超参下的扭曲攻击

训练过程通过在M添加noise，保证能够学到正确的扭曲模式，保证了后门的准确性。
在这里插入图片描述

直接跳到总结

对神经网络预测进行可视化，可以看出，clean model 和 WaNet的热力图是相似的。
WaNet的后门是基于整个图像的扭曲实现的，因此无法被可视化攻击侦查到。
在这里插入图片描述
这种方式将后门嵌入到更加普遍、难以察觉的部分。
但是防御也比较简单——直接自己加一个扭曲的扰动。我怀疑这个后门的鲁棒性。
但是实际中没有人会对所有输入进行扰动变化，因为那样可能降低模型的准确率。除非检测出那就是对抗/后门样本。

标签：后门,WARPING,BASED,warping,IMPERCEPTIBLE,扭曲,ATTACK,图像
来源： https://blog.csdn.net/weixin_48654804/article/details/120399461