论文部分内容阅读
图像视觉显著度的研究一直以来都是计算机视觉领域的一个重要研究课题。研究图像视觉显著度不仅可以帮助我们理解人类的视觉注意机制,而且在图像裁剪、视频压缩以及图像的伸缩变换等方向具有远大的应用前景。经过多年的努力,研究者在二维图像的视觉显著度研究中已经获得了许多重要的成果。然而随着立体影像制作、播放技术的快速发展,视觉显著度研究迎来了新的挑战。因为立体影像引入的深度感知会影响人们的视觉注意,进而影响图像的视觉显著度。一直以来研究者都在努力构建一个能够准确预测图像视觉显著度的模型。特征综合、引导搜索等认知理论表明构建一个优秀的视觉显著度模型关键在于特征选取和特征融合这两个方面。本文也从这两个方面出发,努力构建一个能够尽可能准确预测立体视频显著度的模型。在提取特征时本文依据人类的视觉注意机制提取了立体视频帧的DCT变换特征、Itti三通道特征、子带特征、颜色空间特征、深度、运动、中心偏向等全局显著特征以及使用卷积神经网络获取了局部显著特征。对以上特征经过分析、对比和实验,针对不同的特征融合方法选用了不同的显著特征组合。然后分别采用支持向量机和卷积神经网络进行多特征融合。其中在使用卷积神经网络进行特征融合时,针对本文选用的显著特征组合,对卷积神经网络的一般性架构进行了优化,去除了下采样层,使其学习效率和学习效果得到了提升。最后将本文提出的模型与其它数个立体视觉显著度模型采用显著图直观评价、ROC和P-R曲线、AUC、F-measure、PLCC和KLD等多种评估方法进行对比评估。同时分析了不同模型对于不同场景类型显著度预测的鲁棒性。对比评估结果表明本文提出的视觉显著度模型的预测结果具有优势,其中采用卷积神经网络进行特征融合的模型结果最优。并且基于机器学习的模型对于不同类型的场景具有更好的鲁棒性。