返回主页返回专栏页

基于可解释卷积神经网络的对抗样本检测：Training Interpretable Convolutional Neural Networks by Differentiating Class-Specific Filters

本项目提出了神经网络的新型训练策略，提升神经网络的可解释性。解释神经元(人工神经网络的组成单元)，即确定各个神经元所主要捕捉的数据特征;其中数据特征需要表示成人类可理解的语义(例如，对于图像来说，可理解的语义包括:图像具有何种颜色、材质、纹理，代表何种物体部件、物体或场景)。现有研究表明，一个神经元通常会提取大量语义，形成一对多的关系，十分不利于人类理解、诊断神经元的行为。对于某个需要学出可解释神经元的神经网络层，我们在常规的前向传播路径之外新增了类别专一门控模组:门控计算模块以数据的类别标注为输入，输出一组门控值，每个门控值分别对应一个神经元;该层各神经元的输出分别乘上相应的门控值，作为本神经网络层的最终输出。 Class-Specific Gate（CSG）训练示意图

该成果在计算机视觉领域重要学术会议ECCV2020发表。

论文引用：Liang H.; Ouyang Z.; Zeng Y.; Su H.*; He Z.; Xia S.-T.; Zhu J.; Zhang B.; Training Interpretable Convolutional Neural Networks by Differentiating Class-Specific Filters, 16th European Conference on Computer Vision, ECCV 2020, Online, 2020-8-23至2020-8-28.

深度学习模型的攻防基础理论与关键技术研究

基于可解释卷积神经网络的对抗样本检测：Training Interpretable Convolutional Neural Networks by Differentiating Class-Specific Filters