AAAI 2021 | 近期必读对抗训练精选论文

对抗训练（adversarial training）是增强神经网络鲁棒性的重要方式。在对抗训练的过程中，样本会被混合一些微小的扰动（改变很小，但是很可能造成误分类），然后使神经网络适应这种改变，从而对对抗样本具有鲁棒性。在图像领域，采用对抗训练通常能提高鲁棒性，但是通常都会造成泛化性降低，也就是说，虽然对对抗样本的抵抗力提升了，但是有可能影响普通样本的分类能力。

神奇的是，在语言模型领域却观察到不一致的结果——对抗训练既提高了鲁棒性也提高了泛化性。尽管在各个领域都取得了成功的经验，但已经表明，深度神经网络很容易受到恶意干扰的输入数据的影响，从而大大降低了其性能。这就是所谓的对抗攻击。为了对抗对抗攻击，已证明，将对抗训练作为一种强大的优化形式，是有效的。但是，与标准训练相比，进行对抗训练会带来很多计算开销。

为了降低计算成本，我们通过增加对抗性训练步骤的数量并随着训练的进行逐渐减小对抗性训练步骤的大小，对常用的投影梯度下降（PGD）对抗性训练提出了一种简单而有效的修改方法。我们从最优控制理论的角度分析了这种退火机制的最优性，并证明了所提出算法的收敛性。在标准数据集（例如MNIST和CIFAR10）上的数值实验表明，与PGD相比，我们的方法可以以大约1/3至1/2的计算时间实现相似甚至更好的鲁棒性。

尽管健壮的深度学习中的现有工作都集中在基于像素级别的小型规范扰动，但这可能无法解决在多个实际设置中遇到的扰动。在许多此类情况下，尽管可能无法获得测试数据，但可能知道有关扰动类型（例如未知的旋转度）的广泛规范。我们考虑一种在看不见的测试域中预期具有鲁棒性的设置。但偏离了训练领域。虽然可能无法确切知道此偏差，但根据属性先验地指定了其广泛的特征。

我们提出了一种对抗训练方法，该方法学习如何生成新样本，从而最大程度地将分类器暴露于属性空间，而无需访问来自测试域的数据。我们的对抗训练解决了最小-最大优化问题，通过优化内部最大化产生的对抗性扰动的损失，使内部最大化产生对抗性扰动，而外部最小化找到模型参数。我们证明了我们的方法在三种类型的自然扰动上的适用性-与对象相关的移动，几何变换和常见的图像破坏。我们的方法使深度神经网络能够抵抗各种自然扰动。

我们通过展示在MNIST，CIFAR-10和CLEVR数据集的新变体上进行对抗训练而获得的深度神经网络的鲁棒性收益，从而证明了所提出方法的有效性。最近的结果表明，经过对抗训练的分类网络除了具有鲁棒性外，还具有理想的特性，例如可逆性。后者的属性似乎违反直觉，因为社区已广泛接受分类模型应仅捕获任务所需的最少信息（功能）。由于这种差异，我们研究了对抗训练与信息理论之间的双重关系。

我们表明，对抗训练可以提高对新任务的线性传递能力，由此在表示的传递能力和源任务的准确性之间产生了新的权衡。我们使用在几个数据集上经过CIFAR-10，CIFAR-100和ImageNet训练的健壮网络来验证我们的结果。此外，我们表明对抗训练减少了费舍尔有关输入的表示形式和任务权重的信息，并且我们提供了一个理论上的论点，可以解释确定性网络的可逆性而不会违反极小的原理。

最后，我们利用理论知识来通过反演显着提高重建图像的质量。对抗性示例是摄动输入，旨在通过在原始数据中添加对抗性摄动来欺骗机器学习分类器。尽管快速的对抗训练已显示出鲁棒性和效率，但已观察到“灾难性过度拟合”的问题。这是一种现象，在单步对抗训练中，经过几个时间段后，针对投影梯度下降（PGD）的鲁棒性突然降低至0％，而针对快速梯度符号方法（FGSM）的鲁棒性提高至100％。

在本文中，我们讨论了三个主要主题。（i）我们证明了灾难性的过度拟合发生在单步对抗训练中，因为它只训练具有最大扰动的对抗图像，而不是沿对抗方向训练所有对抗实例，从而导致决策边界失真和高度弯曲的损失表面。（ii）我们通过提出一种使用检查点的简单方法，通过实验证明了这一现象。这种方法不仅可以防止灾难性的过拟合，而且可以克服这样的观念，即单步对抗训练很难防止多步攻击。

（iii）我们将提出的方法的性能与最近的工作进行了比较，证明了即使在更少的时间内经过数百次训练后，它也能为不同的攻击提供足够的鲁棒性。通过解开潜在空间来控制自然语言的风格是迈向可解释机器学习的重要一步。消除潜在空间的纠缠之后，可以通过调整样式表示形式来更改句子的样式，而不会影响句子的其他特征。以前的作品通常使用对抗性训练来确保散乱的向量不会相互影响。但是，对抗方法很难训练。

尤其是当存在多个特征时（例如，我们在本文中将其称为样式类型的情感或时态），每个特征都需要一个单独的鉴别器来提取与该特征相对应的解缠结的样式向量。在本文中，我们提出了一种统一的分布控制方法，该方法为每个特定样式值（样式类型的值，例如积极情绪或过去时态）提供了唯一的表示形式。该方法为避免在多类型纠缠中进行对抗训练提供了坚实的理论基础。

我们还提出了多种损失函数，以实现样式内容的解缠以及多种样式类型之间的解缠。此外，我们观察到，如果两种不同的样式类型始终在数据集中同时出现一些特定的样式值，则在传输样式值时它们将相互影响。我们称这种现象为训练偏见，我们提出了一种损失函数来缓解这种训练偏见，同时消除了多种类型。

我们在两个数据集（Yelp服务评论和Amazon产品评论）上进行了实验，以评估两种风格类型上的风格解开效果和无监督的风格转移性能：情感和时态。实验结果表明了该模型的有效性。