论文部分内容阅读
增强现实技术为实现精确的虚实配准,需要准确理解客观三维世界的空间语义信息。三维跟踪旨在时间序列中连续估计目标物体和相机之间的欧式变换关系,即连续估计六自由度的位姿参数,该技术于增强现实之中有重要作用。随着智能移动设备和其他可穿戴类产品的普及,基于视觉的三维跟踪技术因其简单精准的特点在AR研究中备受重视,具有广泛实际的应用价值。本文主要关注基于单目RGB图像的三维物体跟踪问题。三维跟踪有几十年的研究基础,但仍有许多挑战性因素限制其在实际中应用。一方面,物体本身的物理属性差异巨大,另一方面,外部环境有各种棘手因素,如复杂背景、运动模糊、快速位移等。尤其是,单眼视觉在没有空间几何先验知识的情况下,二维到三维信息的推断极易受到干扰。近年来深度学习展现出强劲的特征抽象和模型拟合能力,在很多学术领域取得较大的突破性成果,将深度学习应用到三维跟踪问题中已逐步发展为新的研究趋势。该方法能够从训练数据中学习物体位姿合适的特征描述,具有传统方法不具备的优势。因此,本文将三维跟踪问题与深度学习结合,并完成以下工作:首先,提出基于重构自编码的六自由度位姿估计方法。结合位姿估计的特点,将任务合理划分成位置预测和姿态预测两部分。根据降噪自编码器的工作原理,在网络模型学习过程中抑制复杂背景、运动模糊、物体间遮挡等因素,提取与目标外观相关联的主要特征作为姿态分类的重要依据。由于网络具有分割检测功能,根据相机成像模型中的比例关系,通过解析2D边界框来恢复完整的位置分量。其次,提出基于边缘的位姿优化和验证方法。位姿优化过程使用无关于纹理的轮廓边缘特征,全局匹配二维观测轮廓和三维投影轮廓,建立基于边缘距离的最小二乘问题进行非线性迭代求解。为进一步验证位姿的准确性,提出了边缘梯度同向指数作为位姿验证的准则。最后,实现基于视频的自动化三维跟踪技术。该技术可实现自动初始化跟踪过程,并在后续实时跟踪三维物体。在初始化状态下,系统启动神经网络估计粗略的位姿,并利用重构图筛选可信任边缘做进一步位姿细化。跟踪状态下,系统以上一帧位姿做初始化,只关注帧间运动,使用边缘距离能量函数进行位姿细化。为保证跟踪的稳定性,根据边缘轮廓同向指数判断位姿估计的准确性,确定当前的跟踪状态。综上,本文基于深度神经网络实现了三维跟踪技术,并在多组数据上进行实验测试,实验结果表明该算法在各项性能指标上均具有较好的效果,能够实时准确的完成几何一致的虚实融合效果,具有实际应用价值。