Skip to content

Latest commit

 

History

History
86 lines (51 loc) · 3.83 KB

File metadata and controls

86 lines (51 loc) · 3.83 KB

Adversarial Examples Are Not Bugs, They Are Features

1.Introduction

对抗性样本的存在不是网络架构的问题,而是数据集的一个属性。 数据中同时有鲁棒特征和非鲁棒特征对分类器共同产生影响。

2.The Robust Features Model

定义模型:

三类特征:

两种训练:

Standard Training:正常训练 训练一个分类器,loss function --> 特征加权求和和标签之间的相关性。

Robust Training: adversarial training

3.Finding Robust(and Non-Robust)Features

核心假设:鲁棒和非鲁棒特征对于standard training都有效。 支撑假设的实验:区分两种特征

1)建立一个鲁棒dataset,训练鲁棒模型。展示了去除一些特征可以提高模型的鲁棒性。更多的,提供了更多的证据证明非鲁棒特征才是对抗脆弱性的原因,而非模型的固有特征。 2)建立了新训练集,使得输出只和非鲁棒特征相关。足以训练出使得standard testset有较好的表现的模型。 这展示出在模型在有鲁棒特征存在的情况下仍用非鲁棒特征来做预测。说明了这些特征是有意义的,而非人为有限的训练的过拟合。

3.1 如何建立模型区分鲁棒特征和非鲁棒特征

Motivation: 如果我们能使得只有鲁棒特征起作用,standard training就应该训练出鲁棒的分类器。 难点是我们不能直接操纵特征。 Goal: 搞了一个模型来修改dataset,使数据集只含有和模型相关的特征。

How to achieve:给出一个鲁棒模型C,我们建立一个分布DR,使得其满足:

建立DR:通过one to one mapping x(∈D)->xr(∈DR)

f∈Fc:为了使得模型所用的特征对于不同的训练集有相同重要性,我们强制使所有x和xr在Fc中得到相似的特征值。梯度下降法求解该最小值问题:

g:mapping from x to the representation layer.

(Appendix C)

f∉Fc:没有办法直接获取不属于Fc的特征,怎么确定在f∉Fc时的特征为0?

Result:

3.2 非鲁棒特征足够分类 只用鲁棒模型采用的feature的dataset训练训练出了更鲁棒的模型 -> 原始训练集的训练中,非鲁棒特征也起到了很大的作用,所以造成了模型的不鲁棒。

Motivation: 试图证明非鲁棒特征起作用的原因并不是过拟合,而是非鲁棒特征本身valuable

Goal: 搞了一个全是非鲁棒特征的dataset(ρ-useful and non-robust.),训练的模型在标准测试集合上的效果不错。

How to achieve this:

两类非鲁棒数据集:randomly labeled, deterministically labeled

在这两类训练集上做standard training。

Result: 训练出的分类器对原始测试集的效果都较高。

3.3 非鲁棒特征的可移植性

Motivation: Intriguing properties: transfer across models with different architectures and independently sampled training sets. 非鲁棒特征存在下的自然结果:

这些特征是数据分布中固有的,所以不同的分类器可能使用了同一部分非鲁棒特征。 因此,某个分类器学出来的非鲁棒特征所构成的对抗样本可以transfer到不同的用相似特征的分类器。

How to corroborate this hypothesis:

用ResNet-50训练出的adv-example with deterministic labels 放到五个不同结构的分类器。