其他分享
首页 > 其他分享> > 基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

作者:互联网

WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

ICLR 2021
https://arxiv.org/abs/2102.10369

之前的触发器都是基于噪声或特点模式,容易被人类肉眼发现。因此本文使用基于翘曲的后门触发器,并提出一种新的训练模式,称为“noise”mode(噪声模式)。
与其他后门样本的对比
这一后门样本在不损失攻击性能的前提下保证了隐形性。

Image warping

Image warping是一种应用几何变换使图像发生变形的变换。具体可以看数字图像处理。

WARPING-BASED BACKDOOR ATTACK

主要目标是设计一个注入函数 B B B。
B ( x ) = W ( x , M ) B(x)=W(x,M) B(x)=W(x,M)
M M M就像是一个运动场,定义了目标图像中每个点向后扭曲的相对采样位置。
M M M的设计很关键,需要满足几个性质

  1. Small,以保证不被人类注意到
  2. Elastic,弹性。光滑但是非平坦,用于生成看起来自然的图像
  3. Within image boundary:M需要在图像的边界之内,避免生成可疑的区域

总的来说,就是设计一个扭曲函数 M M M,使得图像以特定的模型扭曲。这种扭曲形式作为特征被NN提取。

M的设计分为三步:
A. 选择control grid:将整个图像分成 k × k k\times k k×k,使用一个参数 s s s来定义 P P P的强度。 ψ ψ ψ表示归一化。
在这里插入图片描述
B.上采样。
C.应用一个剪切函数,使得采样点不落在边界外。

当k<6,s<0.75时,warping的影响几乎是不可见的。


不同超参下的扭曲攻击

训练过程通过在M添加noise,保证能够学到正确的扭曲模式,保证了后门的准确性。
在这里插入图片描述

直接跳到总结

对神经网络预测进行可视化,可以看出,clean model 和 WaNet的热力图是相似的。
WaNet的后门是基于整个图像的扭曲实现的,因此 无法被可视化攻击侦查到。
在这里插入图片描述
这种方式将后门嵌入到更加普遍、难以察觉的部分。
但是防御也比较简单——直接自己加一个扭曲的扰动。我怀疑这个后门的鲁棒性。
但是实际中没有人会对所有输入进行扰动变化,因为那样可能降低模型的准确率。除非检测出那就是对抗/后门样本。

标签:后门,WARPING,BASED,warping,IMPERCEPTIBLE,扭曲,ATTACK,图像
来源: https://blog.csdn.net/weixin_48654804/article/details/120399461