基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK
作者:互联网
WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK
ICLR 2021
https://arxiv.org/abs/2102.10369
之前的触发器都是基于噪声或特点模式,容易被人类肉眼发现。因此本文使用基于翘曲的后门触发器,并提出一种新的训练模式,称为“noise”mode(噪声模式)。
这一后门样本在不损失攻击性能的前提下保证了隐形性。
Image warping
Image warping是一种应用几何变换使图像发生变形的变换。具体可以看数字图像处理。
WARPING-BASED BACKDOOR ATTACK
主要目标是设计一个注入函数
B
B
B。
B
(
x
)
=
W
(
x
,
M
)
B(x)=W(x,M)
B(x)=W(x,M)
M
M
M就像是一个运动场,定义了目标图像中每个点向后扭曲的相对采样位置。
M
M
M的设计很关键,需要满足几个性质
- Small,以保证不被人类注意到
- Elastic,弹性。光滑但是非平坦,用于生成看起来自然的图像
- Within image boundary:M需要在图像的边界之内,避免生成可疑的区域
总的来说,就是设计一个扭曲函数 M M M,使得图像以特定的模型扭曲。这种扭曲形式作为特征被NN提取。
M的设计分为三步:
A. 选择control grid:将整个图像分成
k
×
k
k\times k
k×k,使用一个参数
s
s
s来定义
P
P
P的强度。
ψ
ψ
ψ表示归一化。
B.上采样。
C.应用一个剪切函数,使得采样点不落在边界外。
当k<6,s<0.75时,warping的影响几乎是不可见的。
训练过程通过在M添加noise,保证能够学到正确的扭曲模式,保证了后门的准确性。
直接跳到总结
对神经网络预测进行可视化,可以看出,clean model 和 WaNet的热力图是相似的。
WaNet的后门是基于整个图像的扭曲实现的,因此 无法被可视化攻击侦查到。
这种方式将后门嵌入到更加普遍、难以察觉的部分。
但是防御也比较简单——直接自己加一个扭曲的扰动。我怀疑这个后门的鲁棒性。
但是实际中没有人会对所有输入进行扰动变化,因为那样可能降低模型的准确率。除非检测出那就是对抗/后门样本。
标签:后门,WARPING,BASED,warping,IMPERCEPTIBLE,扭曲,ATTACK,图像 来源: https://blog.csdn.net/weixin_48654804/article/details/120399461