深度学习模型的攻防基础理论与关键技术研究


返回主页 返回专栏页

基于抑制嵌入流形分布特性导致的梯度泄露现象提升模型对抗鲁棒性的防御算法:Defense Against Adversarial Attacks via Controlling Gradient Leaking on Embedded Manifolds

我们指出,深度学习中输入数据的向量化表示使输入样本数据分布在嵌入在高维欧氏空间中的低维子流形(sub-manifold)附近,其内在维度数远远低于向量表示的维数 。这意味着在输入数据上处处有定义的由输入到输出的映射(即我们通过神经网络希望近似的映射)在推广为全空间有定义的函数时,可以有非常丰富的任意性,在数据流形附近,这种任意性可以由这些函数的梯度形成的场在数据流形上投影分量和法方向的大小和方向来刻画。容易看出,无论法方向上梯度投影分量如何,相同的梯度场分量投影对应相同的分类函数。在此基础上,我们提出了梯度泄露假说(Gradiant Leakage Hy pothesis),断言神经网络在所有可能的分类函数中,更倾向于学习得到法向梯度分量占比较大的函数,形式上看,这意味着梯度从流形延伸的方向泄露离开了流形,所以形象地称为梯度泄露。

理论分析表明,梯度泄露并不会影响模型在数据分布上的表现。但在数据原始分布理论分析表明,梯度泄露并不会影响模型在数据分布上的表现。但在数据原始分布上性能相同的神经网络中,发生更严重的梯度泄露的那个显然将更容易受到对抗性攻击的影响。我们运用主成分分析,通过经验观察,在学术界普遍使用的深度网络模型和问题上,验证了梯度泄露现象的广泛存在和随训练进程的变化规律,也验证了神经网络的确对小尺度特征存在偏好,而其严重程度同对抗脆弱性之间存在高度相关关系。通过理论和实验的分析表明,梯度泄露指标可以有效用来预测模型面对对抗攻击的鲁棒性,梯度泄露越少的模型,体现出了越高的鲁棒性。此外,我们还进行了将部分小尺度特征替换成为更容易分类的线性特征后重新训练等实验,都证明了神经网络存在对数据集特征进行选择的情况,选择的偏好更倾向于小尺度特征会导致在对抗攻击面前更脆弱。 梯度泄漏现象示意图

该成果在计算机视觉领域重要学术会议ECCV2020发表。

论文引用:Li Y.; Cheng S.; Su H.*; Zhu J.; Defense Against Adversarial Attacks via Controlling Gradient Leaking on Embedded Manifolds, 16th European Conference on Computer Vision, ECCV 2020, Online, 2020-8-23至2020-8-28.