本项目提供了一个轻量级但功能强大的模块,以解决现有AT框架的学习动态中的若干缺陷,并促进经过对抗训练的网络学习更鲁棒的特征。从方法上讲,通过集成超球面嵌入(HE)机制来增强AT框架,该机制对倒数第二层的特征和softmax层的权重进行规一化。除了HE在学习角度判别表示法上的通用优势之外,本项目贡献了理论分析来表明编码的HE机制可以很自然地适应AT。
在AT产生对抗样本的过程中HE能够产生更有效的扰动;HE鼓励模型投入更多的精力来学习困难的对抗样本,这些对抗样本有助于提高在最难的对抗性攻击的性能;缓解了无目标或多目标攻击所造成的标签分配不平衡问题,其中对抗标签的产生取决于类之间的相似性;在角度度量下引入更大的类间距离,以进一步提高模型的鲁棒性。本项目的方法简洁且易于实现。为了验证有效性,本项目考虑了三种典型的AT框架与HE结合使用,即PGD-AT, ALP以及TRADES。通过评估HE与先前用于加速AT的策略的组合来进一步验证该方法的通用性,例如FreeAT和FastAT。根据经验评估了CIFAR-10和ImageNet在几种对抗性攻击下的防御能力,包括常用的PGD以及其他强大的攻击算法,例如Feature Attack,FAB,SPSA和NES等。结果表明,合并HE可以不断提高每个AT框架训练的模型的性能,同时几乎不引入额外的计算开销。本项目将HE机制嵌入到AT中,以增强对抗训练模型的鲁棒性,从多个方面分析了AT和HE之间的交互所带来的益处,并从实验的角度阐述HE机制的策略兼容性与有效性,同时不需要额外的计算开销。
该成果在人工智能领域重要学术会议NeurIPS2020发表。
论文引用:Tianyu Pang; Xiao Yang; Yinpeng Dong; Kun Xu; Jun Zhu; Hang Su; Boosting Adversarial Training with Hypersphere Embedding, Advances in Neural Information Processing Systems (NeurIPS), Online, 2020-12-6至2020-12-12.