其他分享
首页 > 其他分享> > decision-based adversarial attacks_reliable attacks against black-box machine learning models

decision-based adversarial attacks_reliable attacks against black-box machine learning models

作者:互联网

Decision-based adversarial attacks: Reliable attacks against black-box machine learning models

Decision-based adversarial attacks: Reliable attacks against black-box machine learning models

本文提出了一种boundary-based的攻击方法,本方法不需要模型的梯度信息或score信息,因此可进行白盒和黑盒攻击。本方法还攻破了防御蒸馏(defensive distillation),顺便对一大类通过隐藏梯度的防御方法判了死刑。

1. Introduction

首先比较了目前方法的优缺点:

Motivations

本文提出的原因:

本文的工作及限定:

image-20201031233957106

Contributions

2. boundary attack

总结:

image-20201101094416057

在游走的时候,落入边界内的都是能正确分类的,然后即使这样在边界上也能找到一个距离original image最近的点。

image-20201101093723874

算法流程:

输入:原始图片+对抗扰动准则,模型的决策

输出:满足条件最小的对抗样本

  • 选择一个对抗样本作为初始点(start from a point that is already adversarial);
  • 然后进行随机游走(random walk),一方面要使得图片仍然是对抗样本;另一方面和原始图片的“distance”不能太远

执行完每一迭代步后:

如何更新下一步的扰动(对抗图片)本质上是在对抗/非对抗边界上进行拒绝采样。

2.1 如何选择初始点

Boundary attack需要起始点就是对抗样本,因此如何选择初始点是个问题。

2.2 Proposal distribution

proposal distribution的选择决定了算法的效率,即如何选择游走方向。最佳的proposal distribution同样应该取决于要攻击的区域或模型,但是对于vision-related的问题,下面简单的分布就能满足要求:

image-20201101094620169

即扰动样本是图片;扰动不能太大;下一次游走的方向应该是要减小和原图片的distance。( d d d是根据模型的输出来决定的,如何决定?)

实际中选择的分布是一种更简单的启发式分布:

2.3 Adversarial criterion

即如何判断一个被分类为对抗样本的图片是否是误分类。

一个可能的选择是模型预测的top-k误分类,或是某些置信度分数的top-k阈值中不包括原始的分类标签。

2.4 Hyper-parameter adjustment

image-20201101190629309

Boundary attack有两个相关的参数:

这两个参数都会随着边界的局部几何情况进行动态调整。方法受Trust Region method的启发。

一个点更新到下一个点的过程可分为两步,首先是在以原始图片为中心的超球上走一步,保证下一步得到的图片仍然是对抗样本,然后再朝着原始样本走一步。这两个步长都需要动态调整:

3. Comparison with other attacks

首先对攻击成功率的评估指标定义两个一个metric
S A ( M ) = median ⁡ i ( 1 N ∥ η A , M ( o i ) ∥ 2 2 ) \mathcal{S}_{A}(M)=\operatorname{median}_{i}\left(\frac{1}{N}\left\|\boldsymbol{\eta}_{A, M}\left(\boldsymbol{o}_{i}\right)\right\|_{2}^{2}\right) SA​(M)=mediani​(N1​∥∥​ηA,M​(oi​)∥∥​22​)
式中, η A , M ( o i ) ∈ R N \eta_{A, M}\left(\boldsymbol{o}_{i}\right) \in \mathbb{R}^{N} ηA,M​(oi​)∈RN,表示的是攻击方法 A A A在模型 M M M下第 i i i-th样本上的扰动。 S A \mathcal S_A SA​是最终的得分,定义为攻击方法 A A A下所有样本的 L 2 L_2 L2​距离。

如下所示,gradient-basedTransfer-basedScore-based和本文提出的Boundary-based方法可分别进行目标/目标共攻击,本文仅比较gradient-based的三种方法,即FGSMDeepFoolC&W方法。

image-20201101203029482

3.1 Untargeted attack

image-20201101195729230

不同数据集得到的对抗样本和扰动

image-20201101195805111

上面的评价指标

image-20201101200005384

Boundary attack攻击作用过程示意,图片上面是需要调用模型的次数,下面是与原始图片的MSE

这样看来也有generative properties??

image-20201101202008142

3.2 Targeted attack

image-20201101202555794

image-20201101203300710

4. The Importance of decision-based attacks to evaluate model robustness

Attack Defensive Distillation

image-20201101204530788

image-20201101204555754

5. Attacks on real-world applications

In many real-world machine learning applications the attacker has no access to the architecture or the training data but can only observe the final decision.

image-20201101205338559

攻击基于Clarifai的两个模型:一个是识别品牌的模型;一个是识别名人的模型。

6. Discussion & Outlook

ion-based black-box attack;

标签:box,based,attacks,模型,样本,攻击,方法,对抗
来源: https://blog.csdn.net/qq_32925101/article/details/111411449