论文部分内容阅读
随着互联网技术和多媒体技术的飞速发展,数字媒体信息呈现出以几何级数增长的态势。海量的数字媒体为人们的娱乐、教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑战。一方面,数字媒体的信息量远远超过计算机拥有的处理能力,人们需要将有限的计算资源用于处理数字媒体中的重要部分;另一方面,人类具有从大量视觉信息中选择少量重要信息进行详细分析处理的能力,人们希望计算机能够模拟人类的这种能力。视觉显著性检测方法可以自动预测、定位和挖掘数字媒体信息中对人们重要的视觉信息,可以帮助计算机对海量的视觉媒体信息进行有效筛选。本文从计算机视觉任务对显著性检测所显现出的需求出发,对视觉显著性检测的关键技术进行研究。本文的主要创新点包括:第一,提出了一种基于融合特征的视觉显著性检测算法,用于预测视觉注视点。该算法通过对多种视觉特征进行特征级融合生成融合特征的方式来模拟神经细胞同时受多个不同种类特征激发的过程,并通过对融合特征的显著性度量来获得对多种视觉特征敏感的神经元响应而激发的显著度。为了更加全面的度量显著性,该算法结合局部的和全局的显著性度量方式来对融合特征进行显著性计算。在公开的人眼视觉注视点测试库上的实验结果表明,本文提出的基于融合特征的预测视觉注视点的显著性检测算法能够取得较好的视觉注视点预测结果。第二,提出了一种基于背景对比的显著区域检测算法。该算法分析和实验验证,不包含人眼视觉注视点的区域极有可能是图像背景区域。基于该验证,该算法将图像中同人眼视觉注视点的凸包互补的区域作为可能的图像背景区域,并通过计算每个图像子区域同估计的图像背景区域的对比来度量该图像子区域的显著性。在公开的测试图像库中的实验结果表明本文提出的基于背景对比的显著区域检测算法能较好地在显著图中凸显整个显著区域。第三,提出了一种结合显著性密度和边缘响应的显著物体检测算法。该算法在进行显著物体检测的过程中同时考虑显著性密度和边缘响应这两个显著物体拥有的属性。它将显著物体发现过程建模为寻找最大化显著性密度和边缘响应的矩形框的过程,通过基于显著性密度及边缘响应的分支限界搜索算法来定位最优矩形框。最后,该算法将所定位到的包含显著物体的最优矩形框作为GrabCut的输入,以得到具有清晰轮廓的显著物体。实验证明,该算法能够取得较好的显著物体检测效果。第四,提出了一种面向多幅图像的基于前景对应性的联合显著性检测算法。该算法在多幅图像中寻找对应的图像前景区域,并为每一幅图像生成一幅高亮对应前景区域的图。然后,该算法通过采用本文提出的基于背景对比的显著区域检测算法为每个单幅图像生成对应的单视图显著图。最后该算法将高亮对应前景区域的图和单视图显著图线性结合起来生成最终的联合显著图。在多种数据集上的对比实验证明,该算法在多种场景下均能取得较好的联合显著性检测效果。