深度学习模型的攻防基础理论与关键技术研究


返回主页 返回专栏页

基于迁移先验的高效黑盒对抗攻击方法

在黑盒场景下,攻击者无法获取目标模型的具体信息(架构、参数等)。现有的黑盒攻击方法大致可以分为两类:一类是基于迁移的攻击,其缺点是极度依赖替代模型和目标模型的相似程度,攻击成功率可能较低;另一类是基于查询的攻击,要求攻击者能对自定义的输入查询得到模型的输出得分,其缺点是通常需要的查询次数较多,较为低效。为了提升黑盒攻击的成功率及效率,本项目提出了基于迁移先验的黑盒攻击方法,该方法将替代模型的梯度作为对目标模型梯度估计的先验信息,并融合对模型的查询,提升攻击效率。本项目提出了两种不同的算法,第一个算法通过有偏采样方式将随机查询的方向偏向迁移先验;第二个算法则通过加权平均的方式将迁移先验与随机梯度估计进行平均。基于梯度估计框架,可以推导出融合迁移先验与模型查询的最优权重。在典型的数据集CIFAR-10与ImageNet上,改方法取得了比多个已有方法更好的攻击成功率与效率。对黑盒模型的攻击成功率接近100%。