论文部分内容阅读
随着多媒体技术的快速发展、信息技术的巨大进步,多媒体数量呈爆炸式的增长,数字图像和视频已成为人们日常生活中重要的信息表达和信息传递的载体。尽管巨大的多媒体数据给人们的娱乐、教育、生活等诸多方面带来了各种便利,也导致了越来越多的冗余信息,对多媒体信息处理系统提出了新的挑战。如何从众多冗余的信息中提取出有效的信息成为了一个关键问题。如果计算机能够模拟人类从大量视觉信息中提取少量重要的信息进行分析和处理,就可以针对海量的视觉媒体信息进行有效筛选,区别对待不同信息内容,从而设计出更加高效智能的多媒体处理系统,帮助人们解决检测、分析等各种实际问题。因此,视觉显著性研究应运而生,并已成为多媒体技术等领域的研究热点。视觉显著性方法目标在于模拟人类的视觉感知和注意力机制,自动地预测、定位和提取对人们重要的信息。根据不同的出发点,显著性检测方法主要解决两方面的问题:人眼注视点位置预测和显著物体检测。由于视觉注意力机制涉及认知科学、神经科学以及计算机科学等多个交叉学科,尽管现有的显著性模型已经取得了一定的成功,但是在很多方面也还存在着明显不足,比如时空显著性研究中,不同的时空融合方法将严重影响最终算法的检测性能。因此,深入研究视觉显著性模型具有十分重要的意义。本文研究了视觉显著性检测的一些关键技术并且针对图像和视频显著性问题提出了一些新的思路和算法。主要的创新点包括:第一,提出了一种基于主成分分析(PCA)的图像人眼注视点位置预测算法。作为一种强大的统计手段,PCA被充分利用来转换色彩空间和产生图像块的紧凑表示。具体来说,RGB色彩空间首先通过PCA分析对不同通道进行去相关变换,变换为通道相互独立的色彩空间。然后,将每个通道的图像划分成块,并且基于PCA提取每个块的主成分作为块的特征。使用这种紧凑的块的表示,从局部和全局的块的独特性来度量视觉显著性。局部独特性着眼于“中心-外周”对比度,而全局独特性着眼于特征的稀有性。实验结果表明,基于PCA的颜色空间转换和块的表示大大提高了人眼注视点预测精度。该算法解决了图像信息的统一表示问题,与现有技术相比,能够更好地预测人眼注视点位置。第二,提出了一种边缘引导的图像显著物体检测算法。现有的工作往往忽视边缘信息,而我们提出的方法非常重视边缘信息,并且表明了边缘在整个显著物体检测过程中起着重要的作用。具体来说,我们首先基于边缘引导的分割得到两个尺度的嵌套的超像素,然后在细尺度上联合考虑颜色对比度、空间先验和边界先验去得到初始显著图。其次,我们针对边缘信息使用测地距离导出背景先验。最终,初始的显著图、背景先验和尺度间一致性被联合优化生成最终的显著图。该方法充分利用了基于边缘的图像分割,以及不同尺度分割结果之间的一致性特点,有效地解决了分割方法对显著物体检测算法的影响问题。在三个基准数据集上的实验结果表明所提出的显著物体检测方法优于现有的显著物体检测方法。第三,提出了一种基于距离变换和能量优化的时空显著物体检测算法。具体来说,采用光流的梯度来粗略定位显著物体的边界,然后使用灰度加权的距离变换将光流的梯度映射为完整的显著物体,从而得到时域显著图。此外,我们提出了一种置信度的概念以衡量不同显著图的优劣,并采用置信度引导的能量函数来联合优化空域显著图和时域显著图。我们提出的算法能够自适应地融合空域和时域显著图,有效地克服了传统时空融合模型的缺陷,提升了融合性能。该方法在复杂场景(如聚类的背景和非刚性形变)下能够取得较好的性能,在两个基准数据集上的实验结果证明了其有效性。