论文部分内容阅读
随着卷积神经网络(Convolutional Neural Network, CNN)的诞生与发展,图像分类精度得到了前所未有的提升。众所周知的是 CNN的灵感来源于生物学家 Hubel 和 Wiesel 提出的大脑视觉感知层级模型。本文借鉴该思路,希望通过大脑视觉认知机制启发来改进CNN,使得图像分类性能更好。由此展开了对脑机制与CNN结构特征改进的相关研究。
脑神经科学领域研究表明,人类大脑在进行视觉活动时,并行的背侧流与腹侧流会进行信息交互。而在人工神经网络领域,并行交互的思想被用于许多神经网络的设计,但大多数交互作用发生在并行网络的末尾,网络中部特征的利用率低。基于此,本文第一部分提出了一种并行交互模型(Parallel Interaction Model, PIM)。PIM的特征提取器由两个并行的CNN组成,其中一个是连接到分类器的主特征提取器,另一个是辅助特征提取器,可以与主特征提取器进行多阶段特征交互,提高了网络中部特征的利用率。通过使用提出的PIM,本文改进了两种不同规模的CNN,并在Cifar-10,Aircrafts100和Flower-17数据集上验证了模型效果。实验结果表明,PIM可显著提升模型分类性能。最后,本文可视化了交互前后特征图,用于验证并行交互过程有提升特征质量的作用。与其他模型相比,PIM特征的交互与融合可发生在神经网络的中间,且可根据数据集的特征、原始网络的结构自定义双流交互的位置和频次,以正确控制网络大小。
同时,传统的简单细胞叠复杂细胞的大脑层级视觉模型存在一定的问题,即无法全面表征视觉信息中相对位置等信息。脑神经科学领域提出了一种能体现位置和尺度不变性的模型来解决该问题,该模型对应到计算机视觉领域就是双线性模型。受此启发,本文第二部分提出了一种并行特征扩增模型(Parallel Feature Expansion Model, PFEM)。该模型基于并行 CNN 结构,对并行 CNN 提取的两组特征执行两种双线性变换,将原有的两个基本特征扩增为六个,并对扩增后的特征进行融合,之后送入到全连接层。 本文在 Cifar-10 , Mnist , Mini-ImageNet 三个数据集上进行了实验,结果证明该模型具有提升图像分类精度的能力。同时,本文使用激活值最大化方法对网络进行了可视化分析,证明该模型通过特征扩增的方式可以更好表征图像的高级语义信息。为进一步提升分类性能,我们将基于特征的注意力机制添加到PFEM以校正CNN特征图的激活值,从而过滤部分冗余特征信息,该部分在Cifar-10数据集上进行了实验,结果证明加入注意力机制能够提高模型的分类精度。
本文第三部分借鉴特征工程中特征交叉的概念提出了一种新的CNN 特征交互方式。在特征工程中,特征交叉方式有三种:内积、外积、笛卡儿积。将内积与笛卡尔积用于CNN特征交互皆会造成特征维数膨胀,而使用外积进行特征交互可以保证交互前后特征维数不变。由于使用外积进行特征交互的便利性和可嵌入性,所以本文提出了一种基于外积的特征群交互方式(Feature Group Interaction, FGI),并使用FGI改进ResNet-18。该部分在Cifar-10数据集上进行了实验,结果证明利用FGI进行特征交互可以有效提升特征表征能力,从而提高网络分类精度。
最后,本文总结了研究内容,归纳了课题创新点,提出了论文可进一步深入挖掘的方向。
脑神经科学领域研究表明,人类大脑在进行视觉活动时,并行的背侧流与腹侧流会进行信息交互。而在人工神经网络领域,并行交互的思想被用于许多神经网络的设计,但大多数交互作用发生在并行网络的末尾,网络中部特征的利用率低。基于此,本文第一部分提出了一种并行交互模型(Parallel Interaction Model, PIM)。PIM的特征提取器由两个并行的CNN组成,其中一个是连接到分类器的主特征提取器,另一个是辅助特征提取器,可以与主特征提取器进行多阶段特征交互,提高了网络中部特征的利用率。通过使用提出的PIM,本文改进了两种不同规模的CNN,并在Cifar-10,Aircrafts100和Flower-17数据集上验证了模型效果。实验结果表明,PIM可显著提升模型分类性能。最后,本文可视化了交互前后特征图,用于验证并行交互过程有提升特征质量的作用。与其他模型相比,PIM特征的交互与融合可发生在神经网络的中间,且可根据数据集的特征、原始网络的结构自定义双流交互的位置和频次,以正确控制网络大小。
同时,传统的简单细胞叠复杂细胞的大脑层级视觉模型存在一定的问题,即无法全面表征视觉信息中相对位置等信息。脑神经科学领域提出了一种能体现位置和尺度不变性的模型来解决该问题,该模型对应到计算机视觉领域就是双线性模型。受此启发,本文第二部分提出了一种并行特征扩增模型(Parallel Feature Expansion Model, PFEM)。该模型基于并行 CNN 结构,对并行 CNN 提取的两组特征执行两种双线性变换,将原有的两个基本特征扩增为六个,并对扩增后的特征进行融合,之后送入到全连接层。 本文在 Cifar-10 , Mnist , Mini-ImageNet 三个数据集上进行了实验,结果证明该模型具有提升图像分类精度的能力。同时,本文使用激活值最大化方法对网络进行了可视化分析,证明该模型通过特征扩增的方式可以更好表征图像的高级语义信息。为进一步提升分类性能,我们将基于特征的注意力机制添加到PFEM以校正CNN特征图的激活值,从而过滤部分冗余特征信息,该部分在Cifar-10数据集上进行了实验,结果证明加入注意力机制能够提高模型的分类精度。
本文第三部分借鉴特征工程中特征交叉的概念提出了一种新的CNN 特征交互方式。在特征工程中,特征交叉方式有三种:内积、外积、笛卡儿积。将内积与笛卡尔积用于CNN特征交互皆会造成特征维数膨胀,而使用外积进行特征交互可以保证交互前后特征维数不变。由于使用外积进行特征交互的便利性和可嵌入性,所以本文提出了一种基于外积的特征群交互方式(Feature Group Interaction, FGI),并使用FGI改进ResNet-18。该部分在Cifar-10数据集上进行了实验,结果证明利用FGI进行特征交互可以有效提升特征表征能力,从而提高网络分类精度。
最后,本文总结了研究内容,归纳了课题创新点,提出了论文可进一步深入挖掘的方向。