深度学习模型的攻防基础理论与关键技术研究


返回主页 返回专栏页

ValCAT-运用编码器-解码器语言模型的变长上下文相关对抗变换:ValCAT-Variable-Length Contextualized Adversarial Transformations Using Encoder-Decoder Language Model

我们提出了ValCAT,这是一种黑盒攻击框架,它基于Encoder-Decoder语言模型生成可变长度的上下文相关文段,然后将上述文段替换或插入到原始文本的脆弱点位形成对抗文本,以误导被攻击语言模型做出错误决策。与词级方法相比,ValCAT将扰动的基本单元从单个词扩展到由多个连续词组成的跨度,有效增强了扰动能力。实验表明,我们的方法在多个分类任务和推理任务上的攻击成功率、困惑度和语义相似性方面优于最先进的方法,在Yelp数据集上的攻击成功率达到了93.1%,且PPL仅有最优基线模型BERT-Attack的一半。同时,ValCAT在严格的扰动率和相似度限制下能够始终保持较高的攻击成功率和文本流畅度,最苛刻的约束下,其攻击成功率甚至是BERT-Attack的4倍左右。全面的人工评估表明,ValCAT在确保对抗样本的流畅性和实现更好的语义一致性方面具有显著优势。从防御角度来看,ValCAT所生成的对抗文本可以有效用于语言模型的对抗训练,提高语言模型的鲁棒性,预先形成防御机制以更好地应对文本对抗攻击。该成果发表于会议NAACL2022。 ValCAT流程示意图

Chuyun Deng; Mingxuan Liu; Yue Qin; Jia Zhang; Hai-Xin Duan; Donghong Sun; ValCAT: Variable-Length Contextualized Adversarial Transformations Using Encoder-Decoder Language Model, 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL 2022, Seattle, WA, United states, 2022-7-10至2022-7-15.