论文部分内容阅读
VR、AR、IMAX3D等成为近年来人们耳熟能详的热点词汇,究其原因,主要是由于基于立体视觉媒体获取设备的大量普及以及立体媒体数量的激增,让更多人有机会了解、使用、研究立体媒体。尽管立体媒体的表达方式多样,本文主要对其中模仿人眼方式记录信息的双目立体媒体,展开内容分析和处理方面的研究。同传统多媒体信息处理技术相比,立体媒体处理技术的关键在于对双目视角之间区别和联系关系的挖掘和利用。来自于平行视角之间的对立统一关系,既为内容处理增加了更多线索,同时也增加了更多干扰,因而探索结合媒体新特性的新方法,才能切实提高立体媒体处理的质量和效率。针对立体媒体内容分析领域几个关键性基础问题,在总结国内外研究现状的基础上,分析了存在的主要问题,并给出相应的解决方案。同时,对相关处理技术进行了深入探索。其中主要的创新点和贡献包括如下几个方面:1.提出了一种立体视频深度快速估计方法,利用视频帧间冗余信息,通过自适应运动插值,显著提高计算效率,同时保证深度序列时域连续性。现有立体媒体深度计算方法大多建立在双目图像立体匹配的基础之上,此类方法通常需要设置合适的视差范围,方能达到最佳计算效果,因而直接迁移到立体视频上易造成深度序列不连续等现象。已有针对立体视频的深度计算方法,为确保时域深度的连续性,需要引入大量全局优化过程,因而计算效率很难得到保障。本文通过分析立体视频特性,将细粒度深度计算和粗粒度深度估计通过运动矢量有机结合,提出了一种基于运动插值的深度快速估计方法。该方法不仅在精度上可以媲美全局优化方法,在计算效率上更可以节省一半以上计算时间。2.提出了一种多对象似物性推荐方法,通过构建基于上下文感知的多对象似物性推荐模型,有效解决了逐帧似物性推荐所带来的推荐不一致、计算冗余等问题。现有似物性推荐研究多集中于图像,而针对视频的工作大多开始于图像方法的逐帧使用,且主要面向运动物体或者显著物体推荐。实验表明,逐帧似物性推荐,不仅存在计算冗余,更重要的是其在时域上物体推荐结果易出现不一致性。为解决这些问题,本文提出了一种基于上下文感知的多对象似物性推荐方法,通过设置自适应映射策略,把空域似物性推荐和时域似物性推荐有机结合,为优秀的似物性推荐研究成果应用于视频中提供了通用且有效的解决方案。此外,针对目前缺少视频多对象似物性推荐数据集的现状,构建了一个平均物体数量达3.34的视频多物体数据集,以推动本领域的相关研究。3.提出了一种基于视角融合的多显著对象检测方法,有效利用不同视角之间物体检测的不一致性,进一步提升了显著物体检测的精度。目前显著对象检测主要基于场景中只有一个显著对象的假设,有关多显著对象检测的问题,尚未形成规模性研究,并且已有和多显著对象相关的工作也主要在单目图像上开展。实验表明,单目图像多显著对象检测方法作用于双目图像时,易出现不同视角之间物体推荐不一致的现象。针对这一问题,本文提出了一种基于视角融合的多显著对象检测方法,通过探讨平行视角间显著物体框之间的关系,采用显著性和似物性双概率估计的策略,对显著物体框的打分进行精化,从而提升最终多显著物体检测的准确性和精度。4.提出了一种平面动态立体感的展示方法,服务于广泛存在的立体图像,为实现立体图像裸眼3D提供了新思路。如果没有硬件辅助设备,存在于互联网等处的立体图像无法在普通显示器上展示立体感的现象,是阻碍立体图像进一步普及化的瓶颈。由于当前一些利用运动视差的平面3D动态展示方法缺乏对人眼感知立体的完整分析和建模,易造成展示结果存在闪烁、观看不适等问题。本文通过对人眼视觉系统、运动视差、视觉暂留等现象的分析,提出了一种基于平面显示设备的立体图像动态展示方法,将立体图像的3D感成功传递给用户,为立体图像的进一步发展创造了更多可能。5.提出了一种对立体视频进行重对焦的方法,通过构建计算摄影模型,营造类单反拍摄的重对焦效果。现有的立体视频主要为电影院、VR/AR设备服务,很难在普通用户生活中寻其踪迹。事实上,利用立体视频所隐含的深度信息,可以对视频内容实现更为丰富的内容处理。仅依靠软件方式实现视频重对焦,其输出结果很难摆脱人工处理痕迹。本文基于对摄影学中焦平面、景深、弥散圆等概念的理解,构建面向立体视频重对焦的计算摄影模型,实现类单反效果的视频重对焦,服务于普通用户。在以上关键技术和内容处理的基础上,本文还给出了对未来一些研究方向的展望,展示了本文研究内容的系统性和延展性,以及对相关研究领域的支撑作用,同时也说明本文研究成果在立体媒体研究领域具有良好的应用前景。