论文部分内容阅读
人类的视觉系统具有在复杂场景中迅速定位出最吸引人部分的能力,这种能力被称为选择性视觉注意机制。对于视觉注意机制的研究和建模,在理论层面有助于理解人类视觉系统的工作机理;而在应用层面则可用于图像与视觉处理分析任务中的计算与传输资源分配,提升受限条件下的资源利用效率。现有的视觉注意模型虽然获得了不错的性能,但其与人类行为之间仍存有一定的差距。尤其是当场景内容包括多个目标时,模型不能准确地将注意力分配给不同目标的实例。造成这种差距的原因很大程度上是因为现有的模型不能够很好地对场景中各个目标的实例进行有效的表示。目标是场景中具有语义类别信息的个体的泛指。而目标的实例(简称实例)是在语义类别的基础上,对具有更全面细致语义描述的个体的泛指。有研究表明人类是依据实例之间的差异来对场景中的每个实例分配注意力的。为此,引入了目标的实例特征来对场景中各个目标的实例进行更为有效的特征表示,以区分出不同实例之间的个体差异。在静态场景下,实例特征应该包含区分实例的类内和类间差异的语义信息及其空间上下文信息。在动态场景下,实例特征还应该包含区分实例运动部分的运动特征与时间上下文信息。在提取实例特征的基础上,构建这些特征的注意竞争关系,使网络模型能够学习到多目标场景下不同实例吸引注意的能力。针对视觉注意机制框架下的图像显著性预测、视频显著性预测以及扫视路径预测三个任务,本文以深度卷积神经网络为工具,分别建立了能够处理实例级注意竞争的视觉注意模型。具体而言,本文的主要贡献包括以下几个方面:第一,提出了一种基于密集连接卷积神经网络的显著性预测模型。针对现有的基于深度学习的模型无法很好地处理包含多个目标的注意分配这个问题,提出了一种多尺度扩张密集卷积神经网络来处理多目标的注意力分配问题,以更好地进行显著性预测。在提出的网络结构中,密集连接卷积模块对目标的类间和类内特征进行编码,以进行实例级别的注意力竞争。其次,扩张卷积增加了神经元的感受野,来收集上下文信息以丰富目标的实例特征表示。最后,该网络还引入了跳层连接为跨尺度的注意力竞争提供多尺度特征,这有助于处理包含不同尺度目标的自然场景。在三个公共数据集上的实验结果表明,所提出的模型实现了注意力在多目标场景下的准确分配,取得了更准确的显著性预测结果,并且模型具有良好的泛化能力。第二,提出了一种基于3D卷积编码–解码网络的视频显著性预测模型。针对现有的基于深度学习的模型无法很好动态地对具有运动信息的不同实例分配显著性这个问题,提出了一种非对称的3D全卷积编码–解码网络来处理具有运动信息的多目标显著性分配和注意力转移等问题。在提出的网络中,编码器由两个子网组成,分别提取目标的空间和时间特征。在编码器不同的阶段,对来自不同域的特征进行融合,构成目标的空时特征,以进行实例级别的注意力竞争。其次,解码器分别在空间维度解码目标的空时特征,在时间维度聚合时间信息,获取时间上下文信息和构建实例特征的注意竞争关系。最后,经过特殊设计的结构可以将池化索引从编码器传到解码器,这有助于生成位置感知的显著图。所提出的模型以端到端的方式进行训练和推理。在基准数据集测试集上的实验结果表明,所提出的模型提升了多目标动态场景下显著性分配和注意力转移的预测精度。第三,提出了一种具有跳层连接的卷积编码–解码网络的视觉扫视路径预测模型。针对扫视路径任务预测值稀疏的特性以及大型有标注数据集缺乏的限制,提出了一种基于卷积编码–解码重构的无监督表示学习方法来实现基于周边信息的中心区域内容预测。首先,通过提出的卷积神经网络对低层局部图像特征逐层抽象来学习到目标的高级语义特征。通过跳层连接在解码端引入目标的上下文信息,获取目标的实例特征表示。其次,对于每幅图像,在统一的表示学习模式下,网络的输入包含了不同实例的刺激或实例的部分刺激,从而可以对这些刺激的实例特征构建总体的竞争关系。基于实例级注意竞争可以学习到更好的重构结果。将中心区域的预测内容与实际内容的差异作为感知残差。感知残差反映了视觉系统对于图像内容的认知程度,是显著性的一种度量。最后,在现有的迭代表示学习框架下对扫视路径进行预测。在不同数据集上的实验结果表明,提出的模型提高了模型预测的性能。综上所述,本论文基于实例级别的注意竞争,研究涵盖了从静态场景下的视觉注意预测,到动态场景下的视觉注意预测,再到视觉注意的动态过程预测。本文利用提出的卷积神经网络架构获取不同目标的实例特征表示,来分别对静态图像显著性、动态视频显著性和视觉注意的动态扫视过程进行建模,完整地研究了人类视觉注意的整个过程。