深度学习模型的攻防基础理论与关键技术研究


返回主页 返回专栏页

基于可解释卷积神经网络的对抗样本检测:Training Interpretable Convolutional Neural Networks by Differentiating Class-Specific Filters

本项目提出了神经网络的新型训练策略,提升神经网络的可解释性。解释神经元(人工神经网络的组成单元),即确定各个神经元所主要捕捉的数据特征;其中数据特征需要表示成人类可理解的语义(例如,对于图像来说,可理解的语义包括:图像具有何种颜色、材质、纹理,代表何种物体部件、物体或场景)。现有研究表明,一个神经元通常会提取大量语义,形成一对多的关系,十分不利于人类理解、诊断神经元的行为。对于某个需要学出可解释神经元的神经网络层,我们在常规的前向传播路径之外新增了类别专一门控模组:门控计算模块以数据的类别标注为输入,输出一组门控值,每个门控值分别对应一个神经元;该层各神经元的输出分别乘上相应的门控值,作为本神经网络层的最终输出。 Class-Specific Gate(CSG)训练示意图

该成果在计算机视觉领域重要学术会议ECCV2020发表。

论文引用:Liang H.; Ouyang Z.; Zeng Y.; Su H.*; He Z.; Xia S.-T.; Zhu J.; Zhang B.; Training Interpretable Convolutional Neural Networks by Differentiating Class-Specific Filters, 16th European Conference on Computer Vision, ECCV 2020, Online, 2020-8-23至2020-8-28.