论文部分内容阅读
增强现实(Augmented Reality,AR)技术是当前计算机应用领域的一大研究热点,其本质是在现实场景图像中叠加虚拟信息或物体,使得虚拟物体与现实场景融合,以增强人们对现实环境的感知与交互体验。它融合了数字图像处理、计算机视觉、智能模式识别等多种技术。随着各种相关技术的发展,增强现实得到越来越广泛的应用。但是目前存在三个方面的技术难点:复杂场景下的目标检测、场景感知与三维配准、图像显示与人机交互。目标检测是实现增强现实系统的第一步,现实环境中目标种类多,容易被遮挡,体积相差悬殊,背景和纹理复杂,当前的处理方法难以准确提取到目标的关键信息,导致检测准确率低,达不到增强现实显示和更新的要求。在场景感知与三维配准方面,深度图获取是关键技术,传统的方式因自适应性和鲁棒性均不佳,容易导致虚拟模型和现实场景无法精确配准,直接影响用户体验。在快速运动和大范围移动场景情况下三维模型的建立和显示,处理效果也不太理想,直接影响人机交互体验。针对上述问题,本文对增强现实应用中的复杂场景目标检测、场景感知和三维人脸建模方法开展研究,主要工作总结如下:1)针对增强现实应用中复杂场景目标检测问题,提出了基于深度学习的复杂场景目标检测方法,该方法设计了一个双向金字塔融合网络,通过一系列的双向卷积操作来更好地提取复杂背景环境中目标的特征,同时,利用相对区域推荐网络最大限度地提取不同尺度目标特征和局部特征。此外,该方法中融合了含有目标上下文的信息,来进一步提高复杂场景下目标的检测性能,特别是针对遮挡和尺度不一的场景。实验结果表明该方法具有很高的检测精度。2)针对增强现实应用中复杂场景环境中场景感知自适应性和鲁棒性不足,容易因场景的多样性引起匹配失败。本文提出了基于时空一致性约束的深度图像获取方法,基于场景的双目视频图像序列来感知三维场景。该方法在已获得各帧静态图像深度信息的基础上,融合时域上的深度值信息、片段信息和光流场信息,对各帧初始深度进行优化处理,加强视频序列深度图在时域上深度值变化的连续性和一致性,从而减少噪声、拖尾、闪烁等失真现象,提高了增强现实显示效果。3)针对三维模型建立和显示过程中的问题,结合项目背景,以应用中最常见的人脸模型为例,提出一种低成本、高精度、高鲁棒的人脸建模方法。该方法将传统的单目双线性模型方法推广到多视点双线性模型,将多视点图像的先验特征约束和纹理约束结合起来,利用先验特征约束作为显著先验条件来估计准确的三维面部轮廓,并利用纹理约束来获取高精度的三维人脸形状,与传统方法相比提高了建模精度和准确性。同时,本方法充分挖掘了多视点图像中隐含的三维信息,提高了结果的鲁棒性。