论文部分内容阅读
人类视觉系统存在一种视觉注意力机制,即优先关注和处理图像的某些局部,而后对图像中的其他部分进行处理或者不做处理。这种视觉注意机制很好的解决了输入信息量和处理信息量之间存在巨大差异的矛盾。显著性检测旨在模拟人的视觉注意力机制,在复杂的图像中选择出能吸引人眼关注的区域,显著性检测技术在实际工程应用中都有着巨大的发展潜力和广阔的应用前景,如图像分割,自适应图像压缩,基于内容的图像编辑,目标检测与识别,以及图像检索等。本文在阅读大量文献,研究分析了大量算法,总结现有的注视点检测技术并结合当今前沿技术的基础上,提出了一种新的人眼注视点检测算法。考虑到自然场景图像的多样性与人眼的注意力机制,本文算法采用多通道的检测框架,不同的通道对应于不同级别的信息。在底层信息通道中,本文用底层颜色信息去检测图像中与其他区域具有强对比度的区域。在显著目标检测通道中,采用多示例学习(MIL)算法与监督学习分类算法相结合方式,对图像中能吸引人眼关注的目标进行检测。多示例学习算法可以避免监督学习中样本选择的模糊性问题,两者存在一个互补的关系。另外,根据图像的内容,观察者或多或少会倾向于看图像的中心。考虑到这种倾向,增加了一个中心偏置通道。为了更科学地融合这些信息,本文训练了一个深度神经网络来判断各个通道的检测结果的可靠性。并用网络的输出来确定各个通道检测结果的融合权重。最后,本文算法添加了三种语义检测器来进一步提升效果。本文的主要贡献:(1)采用多通道的检测框架,应用高、中、低三个层次的信息对注视点进行检测,针对于包含各种内容的图像均有不错的检测效果;(2)首次将多示例学习(MIL)算法应用于注视点检测中,以确定图像中的目标是否显著,解决样本选择的模糊性问题,弥补了监督学习中样本选择不准确的问题;(3)提出了一种基于深度学习框架的融合多层次信息的新型自适应权重融合方法,使各级信息的整合变得更加科学。本文算法在三个国际通用的数据库上进行了评估,包括MIT1003,MIT300,以及Toronto120,并与六种国际上的优秀算法进行了比较,实验表明,本文算法在各个评价标准上都超越了其他算法,拥有优秀的检测效果。