其他分享
首页 > 其他分享> > Adversarial Logit Pairing_CSDN

Adversarial Logit Pairing_CSDN

作者:互联网

Adversarial Logit Pairing

Adversarial Logit Pairing

we introduce enhanced defenses using a technique we call logit pairing, a method that encourages logits for pairs of examples to be similar.

本文提出了一种logit pairing方法做防御。

0. Recall

0.1 Adversarial Training

Algotirhm
图片来源见水印。

image-20201130232338386

Formulation

image-20201130221231560

0.2 FGSM and AT

在[Explaining and harnessing adversarial examples论文中,作者

J ~ ( θ , x , y ) = α J ( θ , x , y ) + ( 1 − α ) J ( θ , x + ϵ sign ⁡ ( ∇ x J ( θ , x , y ) ) \tilde{J}(\theta, x, y)=\alpha J(\theta, x, y)+(1-\alpha) J\left(\theta, x+\epsilon \operatorname{sign}\left(\nabla_{x} J(\theta, x, y)\right)\right. J~(θ,x,y)=αJ(θ,x,y)+(1−α)J(θ,x+ϵsign(∇x​J(θ,x,y))

1. Introduction

Contributions:

2. Definitions and threat models

**约束:**威胁模型明确了攻击者(方)的能力,本文将攻击方法界定在可以进行 L ∞ L_{\infty} L∞​操作方法上。这是一种简化操作,但是更适合用于和benchmark工作进行对比。

针对两种威胁模型(threat model):

3. The Challenges of defending ImageNet classifiers

首先,之前已经提出了很多的防御方法,但是目前除了基于Madry(PGD)的对抗训练方法还未被攻破外,其它方法基本都已经不能有效的起到防御作用。因此,本文基于Madry的方法开展研究,并首次将该方法应用于大数据集(ImageNet)。

同时,本文还提及了Adversarial machine learning at scale,包括一些结论:

本文的工作不同的两点包括:

注意:在使用PGD生成对抗样本时,采用随机初始化操作。

4. Methods

4.1 Adversarial Training

PGD是一个通用的一阶攻击方法,也即如果某种方法对PGD攻击鲁棒,则对所有的一阶攻击方法都应该鲁棒。

本文的对抗训练使用PGD作为基本攻击方法(use AT with PGD as the underlying basis for our methods.):

arg ⁡ min ⁡ θ E ( x , y ) ∈ p ^ data  ( max ⁡ δ ∈ S L ( θ , x + δ , y ) ) \underset{\theta}{\arg \min } \mathbb{E}_{(x, y) \in \hat{p}_{\text {data }}}\left(\max _{\delta \in S} L(\theta, x+\delta, y)\right) θargmin​E(x,y)∈p^​data ​​(δ∈Smax​L(θ,x+δ,y))
其中,

本文并没有直接使用Madry提出的对抗训练流程,而是进行了处理,将干净样本和对抗样本混合训练:
arg ⁡ min ⁡ θ [ E ( x , y ) ∈ p ^ data  ( max ⁡ δ ∈ S L ( θ , x + δ , y ) ) + E ( x , y ) ∈ p ^ data  ( L ( θ , x , y ) ) ] \begin{array}{c} \arg \min _{\theta}\left[\mathbb{E}_{(x, y) \in \hat{p}_{\text {data }}}\left(\max _{\delta \in S} L(\theta, x+\delta, y)\right)+\right. \\ \left.\mathbb{E}_{(x, y) \in \hat{p}_{\text {data }}}(L(\theta, x, y))\right] \end{array} argminθ​[E(x,y)∈p^​data ​​(maxδ∈S​L(θ,x+δ,y))+E(x,y)∈p^​data ​​(L(θ,x,y))]​
即前面部分是对抗样本,后面部分是干净样本。本文称之为mixed-minibatch PGD(M-PGD)

虽然对其对抗训练过程进行了改动,但是最终攻击时仍然使用的是PGD方法。

4.2 Logit pairing

提出了logit pairing,一种使得两张图片在logits上相似的方法。

计算输入 x x x的logits输出向量: z = f ( x ) z=f(x) z=f(x)。定义logit pairingloss
λ L ( f ( x ) , f ( x ′ ) ) \lambda L(f(x),f(x')) λL(f(x),f(x′))
是训练数据 x x x和 x ′ x' x′的loss

其中:

本文对对抗样本和干净样本分别提出了logit pairing

这里的 f ( x ) f(x) f(x)是个啥?

f ( x ) = x 1 − x f(x)=\frac{x}{1-x} f(x)=1−xx​

4.2.1 Adversarial logit pairing

**Adversarial logit pairing(ALP)**匹配的是干净样本 x x x和它对应的对抗样本 x ′ x' x′间的logits

Motivation:在一般地的对抗训练中,模型被训练成要将干净样本 x x x和对应的对抗样本 x ′ x' x′都分类成同样的类别,但是训练过程中,模型并没有接收到额外的信息,表明对抗样本 x ′ x' x′和干净样本 x x x更相似。

ALP提供了一个额外的正则项,鼓励在同一样本的干净样本和对抗样本中内嵌更多的相似信息,来帮助模型更好的对数据内进行表达。

考虑以下场景:

Adversrial logit pairing优化以下loss:
J ( M , θ ) + λ 1 m ∑ i = 1 m L ( f ( x ( i ) ; θ ) , f ( x ~ ( i ) ; θ ) ) J(\mathbb{M}, \theta)+\lambda \frac{1}{m} \sum_{i=1}^{m} L\left(f\left(x^{(i)} ; \theta\right), f\left(\tilde{x}^{(i)} ; \theta\right)\right) J(M,θ)+λm1​i=1∑m​L(f(x(i);θ),f(x~(i);θ))

4.2.2 clean logit pairing

同样是两个样本 x x x和 x ′ x' x′,但此时 x ′ x' x′不表示对抗样本,也表示干净样本。 x x x和 x ′ x' x′表示两个随机选择的干净训练样本,因此也不一定是同一个类别的样本。

J ( c l e a n ) ( M , θ ) J^{(clean)}(\mathbb M, \theta) J(clean)(M,θ)表示用于干净样本上训练loss function,一般也是CEClean logit pairing优化目标是:
J ( clean  ) ( M , θ ) + λ 2 m ∑ i = 1 m 2 L ( f ( x ( i ) ; θ ) , f ( x ( i + m 2 ) ; θ ) ) J^{(\text {clean })}(\mathbb{M}, \boldsymbol{\theta})+\lambda \frac{2}{m} \sum_{i=1}^{\frac{m}{2}} L\left(f\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right), f\left(\boldsymbol{x}^{\left(i+\frac{m}{2}\right)} ; \boldsymbol{\theta}\right)\right) J(clean )(M,θ)+λm2​i=1∑2m​​L(f(x(i);θ),f(x(i+2m​);θ))
提出CLP的一个重要原因要进行消融研究(ablation study),可以了解pairing loss本身相对于干净配对(clean pairs)和对抗配对(adversarial pairs)形成的贡献。

令人惊讶的是,研究表明,在随机pairs of logits中引入相似性,会使得基于MNISTSVHN的模型具有较高的鲁棒性。这表明单就CLP似乎就是一个值得研究的点。

ALPCLP最终的优化表达式中,都是一个最小化过程(minimizing the loss),那么对于 λ L ( f ( x ) , f ( x ′ ) ) \lambda L(f(x),f(x')) λL(f(x),f(x′))式,即减小二者之间的相似性。

4.2.3 clean logit squeezing

因为CLP会导致较高的精度,我们假设此时模型正在学习去预测较小辐值的logits,因此会被惩罚不至于过度自信。

5. Adversarial logit pairing results and discussion

看结果,首先是在小数据集上的表现(5.1和5.2节);然后才是本文的中心,在ImageNet上的效果(5.3节)。

5.1 Results on MNIST

首先将ALP应用于MNIST数据集。

关于logit pairing权重的设置( λ \lambda λ),实验发现 λ \lambda λ的大小不要求那么精确,只要落在[0.2, 1]之间的任意值即可。

image-20201218101526669

ALP方法获得了比之前方法更好的效果。

5.2 Results on SVHN

实验设置:

MNIST数据集上的规律类似,对于 λ \lambda λ的选择设置没有那么敏感,只要求在[0.5, 1]之间即可,最终设置 λ = 0.5 \lambda=0.5 λ=0.5。

image-20201218102311322

5.3 Results on ImageNet

5.3.1 Motivation

首先,之前的工作鲜有基于ImageNet数据集的。在Adversarial machine learning at scale中,作者也发现,基于单步迭代方法对抗训练,最终也只能对单步攻击方法鲁棒。即使是基于多步迭代的攻击方法进行对抗训练仍然不起作用。

Madry文章中也只对MNISTCIFAR10数据集,并没对ImageNet对抗训练。

本文首先使用Madry方法在ImageNet数据集上开展了对抗训练,然后使用了本文的方法进行了对比。

5.3.2 Implementation details

对抗训练最终的训练花销与攻击方法中的攻击迭代步息息相关,因为每一次迭代都需要做一次完整的反向传播(BP)。这样,总的计算量其实可以根据干净样本上的训练花销和迭代步简单乘法得到。而且似乎目前也没有什么特别有效地优化方法可提速,对于ImageNet更是。

一些设置:

5.3.3 Targeted VS Untargeted attacks

对于ImageNet,目标攻击较无目标攻击更有意义。Adversarial machine learning at scale

原因:在ImageNet数据集上,无目标攻击会导致非常相似的分类结果,例如两个不同品种的狗,但是这如果作为攻击的分类结果,似乎意义不大。(限定在ImageNet数据集上,其他数据集有没有这个特征还不确定)

5.3.4 Results and discussion

Results with adversarial logit pairing.

RandLL分别表示将类别攻击random classlease likely class(定义在Adversarial machine learning at scale))

对于多步攻击方法(Multi-step attacks),改变不同的总扰动大小、每一步的扰动大小和最终的迭代步:

所有的精度结果都基于ImageNet validation set


White box

Black box

Damaging Ensemble Adversarial Training.

首先,使用Ensemble adversarial trainingImageNet上进行黑盒攻击,获得了66.6%的鲁棒结果。

本文使用了其它的攻击方法较大的影响了这个结果。

首先,使用ALP进行对抗训练,同时基于这个模型得到了对抗样本作为攻击的transfer attack

发现,在所有使用的这些攻击方法中,使用Iter-Rand attack攻击效果最好,此时将模型的鲁棒性从66.6%降到了47.1%

一个可能的原因是:Iter-Rand是从一个多步对抗训练模型中得到的对抗样本,而被攻击的ensemble adversarial training是基于单步或两步攻击方法对抗训练得到的,因此相对来说,此时得到的对抗样本攻击性更强。同时,在Madry的结果中也有相似的结论:黑盒攻击对抗样本迁移性更强。

ALP是个不一样的loss function,与具体的攻击方法无关)

因此,

Discussion.

why does ALP works so well?

一种可能的解释是,ALP提供了一个额外的先验信息来对模型进行正则化,使得模型能更好的理解各个类别。

使用交叉熵损失函数时:

If we train the model with only the cross-entropy loss, it is prone to learning spurious functions that fit the training distribution but have undefined behavior off the training manifold.

训练得到的模型更倾向于学习符合数据分布的函数,而对流形之外的数据学习的不好(对流形之外的数据具有不确定的行为)。

对抗训练增加了有关空间结构的额外信息。有一个假设:即给干净样本添加细微的扰动应该不会改变模型对其的分类结果(与扰动添加的方向无关)。对抗训练同时引入了其它的先验信息,即使得(迫使)模型选择在更大样本空间内更有意义的函数(即使得模型更加的“大”,更加的复杂,强制把对抗样本包裹在内)。

然而,对抗训练并没有考虑到干净样本和相应的对抗样本之间的关系(联系)。例如,如果原始图片的类别是猫,但是添加扰动后模型会认为这是狗,但是仍然还是要训练模型,使得模型仍然将之分类称猫(这就是常规的对抗训练思路)。但是在这个过程中,却没有任何信息/号来反馈给模型,对抗样本其实和原始干净样本间其实是有相似性的

ALP起到了这么一个作用,即告诉模型干净样本和相应的对抗样本间是相似的。

因为这样的相似性,并强制模型去学习这类相似性特征,一定程度上会鼓励模型来学到真正有意义的logits特征(例如猫的耳朵),并且会忽略一些虚假的特征(颜色,或者一些通过对抗扰动带来的远离manifold的方向特征(off-manifold directions introduced by adversarial perturbations))。

同时,本文也认为这是一个将知识从干净样本蒸馏到对抗样本中的过程(反之亦然)。

同时,与之前MadryCIFAR10数据集上的特点一样,即会降低模型在干净样本上的预测精度,ALP同样存在这样的问题。

5.3.5 Comparison of different architectures

在以前的资料中已经表明,模型的架构和模型的容量对模型的鲁棒性影响很大。

首先,比较了Inception V3容量的影响,这样可以和以前的结果进行对比;

然后引入了ResNet-101网络,来对residual connections对对抗鲁棒性进行研究。

使用ALP训练模型:


White box

Black box

5.4 Clean logit pairing results

MNIST上进行CLP实验。

方法:

首先,如下图所示:

image-20201218210906948

下面给出了和M-PGD的效果比较。

image-20201218210921942

6. Comparison to other possible approaches

**Label smoothing.**标签平滑,即将原来的硬目标使用软目标替换。例如引入参数 δ < 1 \delta<1 δ<1,将正确类别的概率设置为 1 − δ 1-\delta 1−δ,而其它类别的概率设置为 δ / ( N − 1 ) \delta/(N-1) δ/(N−1)。

**Mixup.**通过在训练样本之间插值得到新的样本进行训练。在这些插值点处,输出标签通过类似的插值得到。Mixup可以提高模型的鲁棒性。

image-20201218213109632

比较结果如上所示:

7. Conclusion and future work

Contributions:

看到这里,如果将对抗样本认为是训练分布之外的数据,或者说manifold之外的数据,则通过引入ALP,强制训练增加干净样本和对抗样本间的相似性,方向应该是对的啊。

ALP

Adversarial Logit pairing (ALP)是一种对抗性训练方法,通过对一个干净图像的网络和它的对抗样本进行类似的预测。其思想可以解释为使用干净样本的预测结果作为“无噪声”参考,是对抗样本学习干净样本的特征,以达到去噪的目的。该方法在ImageNet上黑盒、白盒攻击的效果在5.3.4节中给出。

合进行训练进行防御,因为PGD是目前最强的攻击方法,但是ALP同样是可以和其它方法结合的,在将来如果发展了其它更强的攻击方法的话。

看到这里,如果将对抗样本认为是训练分布之外的数据,或者说manifold之外的数据,则通过引入ALP,强制训练增加干净样本和对抗样本间的相似性,方向应该是对的啊。

ALP

Adversarial Logit pairing (ALP)是一种对抗性训练方法,通过对一个干净图像的网络和它的对抗样本进行类似的预测。其思想可以解释为使用干净样本的预测结果作为“无噪声”参考,是对抗样本学习干净样本的特征,以达到去噪的目的。该方法在ImageNet上黑盒、白盒攻击的效果在5.3.4节中给出。

标签:Logit,Pairing,训练,攻击,模型,样本,CSDN,ALP,对抗
来源: https://blog.csdn.net/qq_32925101/article/details/111880167