论文部分内容阅读
受新兴的3D多媒体技术发展的驱动,3D图像视觉显著性检测也成为当下视觉显著性研究中一个具有挑战的课题。与2D图像不同,3D图像或视频系统的应用可以给用户带来深度感、沉浸式等身临其境的视觉体验,具有广泛的市场需求和应用价值。3D图像视觉显著性需要额外考虑深度信息。然而,传统的手动提取特征的方法难以高效的提取深度信息中的高层语义特征。因此,本文中我们提出基于深度学习框架的3D图像视觉显著性检测算法。本文所完成的研究工作主要包括:(1)由于现有的3D图像视觉显著性检测模型大多数都采用手动提取图像特征的方法,该方法只能用于提取图像的底层特征,无法提取图像的高层语义特征。因此,本文提出深度学习特征启发的3D图像视觉显著性检测算法。算法中采用一个预训练好的卷积神经网络模型(Convolutional Neural Network,CNN)提取当前区域在多尺度下的深度特征向量,并采用基于神经网络(Neural Network,NN)的显著性预测网络从多尺度下的深度特征向量中分析推断该当前区域的显著性值,并将颜色和深度通道的显著性图融合,生成最终3D图像视觉显著性图。该算法在一定程度上解决了现有的3D图像视觉显著性模型采用手动提取图像特征的误差问题,并提升了模型的性能。(2)研究工作(1)中所提出的算法采用的多尺度图像分割方法较冗余,并且该算法所使用的预训练好的卷积神经网络模型最初是应用于图像分类任务,而不是图像视觉显著性检测任务。针对研究工作(1)中所提出算法的不足,本文提出基于深度神经网络的3D图像视觉显著性检测算法。该算法框架由一个多分辨区域级别的视觉显著性预测网络(MCRWP-Net)和像素级别的空间融合网络(PWSF-Net)组成。算法中通过采用基于超像素的图像分割方法解决了多尺度图像分割方法中的冗余问题,并采用深度神经网络为3D图像视觉显著性检测任务训练特定的网络模型,在一定程度上提升了模型的性能。(3)研究工作(1)和(2)中所提出的算法均是预测区域级的视觉显著性值,然而区域中所有的像素共享显著性标签会导致增大预测的误差。因此,本文提出基于多通道全卷积网络的3D图像视觉显著性检测算法。该算法框架由多通道全卷积视觉显著性预测网络(PredNets),学习中心偏置先验(Center Bias Priors)和稠密显著性预测图的通道间(Inter-Channel)融合组成。算法中采用基于像素级的PredNets网络构建一个三通道(颜色、深度以及颜色和深度的联合通道)的预测网络,并通过通道间(Inter-Channel)融合网络学习颜色和深度信息的空间相关性和差异性,生成最终3D图像视觉显著性图,从而降低模型预测的误差,并提升模型的性能。