论文部分内容阅读
图像的显著性检测是指通过计算机模拟人眼的视觉注意机制,建立一套完整的图像显著性检测模型,从而准确快速地检测出图像中的人眼注视区域。近些年,图像的显著性检测已经成为计算机视觉领域的一个热点研究方向。普遍认为,人眼的视觉注意机制包括自底向上和自顶向下两种类型。完整的图像显著性检测模型需要充分模拟实现两种视觉注意机制,然而调查研究发现,现有的检测模型大多只是充分模拟实现了其中的一种视觉注意机制,检测出的图像显著性区域与实际的人眼注视区域具有一定的差距,检测的准确度有待进一步提高;此外,由于建模方法和计算方法等方面的固有限制,现有的检测模型很难适应于高分辨率的大规模复杂图像的显著性检测,模型的检测速度经常受到严重的影响。据此,本文提出了一种基于深度学习的图像显著性检测模型,充分模拟实现了两种视觉注意机制。该模型在检测准确度和检测速度方面均有显著的提高,能够准确快速地检测出图像的显著性区域,并且适用于各种类型的、高分辨率的大规模复杂类型图像的显著性检测,具有广泛的适用性。总结而言,本文的主要工作内容包括:(1)提出两种新型的图像显著性检测特征提取方法。其中,针对现有模型中提取低级对比特征计算方法复杂局限的缺点,提出了利用专门训练的稀疏自编码器(SAE),并以固定尺寸的像素单元作为最小处理粒度的低级对比特征提取方法,并通过实验验证了该方法优越性;另外,针对现有模型对高级语义特征进行提取的方法适用范围有限以及对自顶向下的视觉注意机制模拟不充分等缺点,依据图片分类的思想,提出了利用经过专门设计和特殊训练的卷积神经网络(CNN)对像素单元的高级语义特征进行统一提取的方法,并通过实验验证了该方法的广泛适用性。(2)结合两种新型的显著性检测特征提取方法,并通过实验选取最佳分类器后,提出并训练得到了充分实现两种视觉注意机制的图像显著性检测方法模型——SCS模型。该模型利用两种新型特征提取方法分别对每个像素单元的低级对比特征和高级语义特征进行提取,并将两类特征结合后利用集成分类器(ensemble classifier)对像素单元进行分类检测,确定其显著性进而得到原始的显著图,再对其进行缩放还原至与原图像相同的尺寸得到最终的显著图。通过在三组常用的公开数据集上与现有的几种先进检测模型进行对比实验,证明了 SCS模型在检测准确性和检测大规模复杂图像方面的优势。(3)本文的最后对SCS模型进行了优化。尝试寻找最佳的对比特征提取范围,并加入中级显著性检测特征,以提高分类检测的准确度。通过对比实验,确定了SCS模型最佳的低级对比特征提取范围,并加入中级特征对SCS模型进行了优化。