论文部分内容阅读
场景三维重建是人工智能系统感知三维世界的基础,是计算机视觉领域的重要研究课题。一个完整的三维重建系统一般由数据采集、深度测量、场景拼接三个基本功能模块组成,其根本目的在于建立客观世界在计算机中的映射模型。尽管三维重建系统中的关键技术已经有过几十年的研究,但由于应用场景的复杂性与多样性,至今仍有许多问题尚未解决。计算机视觉是研究计算机模拟人类视觉功能的学科,对计算机视觉算法的研究不应该忽略人类视觉系统功能机制的启示,对三维重建的研究也是如此。 本文将从人类视觉系统的功能机制着手,针对场景三维重建中的立体匹配与点云拼接关键算法展开研究。人类视觉有周边视野与中心视野之分,周边视野对高频信号敏感,视场广阔,信息处理速度快;中心视野是人眼的注视视野,视场较小,信息处理较慢。首先,本文对人类双眼成像机制与双目相机系统进行建模与分析,对比人类视觉与双目相机视觉之间的异同点,建立了人类视觉与计算机视觉之间的联系。其次,本文通过模拟人类视觉中周边视野的边缘信息处理特性,提出了一种基于自适应动态规划的语义边缘立体匹配方法。最后,本文通过模拟人类视觉中中心视野的视觉连续机制,提出了一种基于平面匹配的点云帧间位姿估计算法,作为迭代最近邻法算法的初始化。本论文的研究内容与创新点如下: 本文在人眼成像模型的基础上,建立了仿人眼的辐辏双目相机模型,并对二者的成像特点、视差及距离计算方法进行了理论推导与对比分析;在假设辐辏角已知的前提下,本文给出了辐辏双目相机模型与立体匹配研究青睐的平行双目相机模型间的坐标转换关系。从仿生的角度阐明了双目相机系统不同成像模型的特点,可为视觉传感器与图像处理算法的研究提供新的思路。 模拟人类周边视野的边缘信息处理特性,针对视觉导航中场景测距的基本需求,本文提出了一种基于自适应动态规划的语义边缘立体匹配方法,将立体图像每行的语义边缘匹配问题建模为两序列的对齐问题,利用动态规划算法求解。一方面,不同于低层视觉边缘,本文方法中使用的语义边缘兼顾了边缘检测与物体识别两个功能,对这些像素进行立体匹配,可以同时达到识别与测距的目的。另一方面,本文方法减少了综合匹配代价中的参数个数,提出了自适应参数的动态规划改进算法,并且不需要人为指定视差范围,大大降低了本文方法中的参数指定难度,提升了鲁棒性。本文方法的性能通过定性观察与定量比较进行综合评价。在与传统动态规划方法、经典稠密立体匹配方法以及最新的边缘匹配方法的对比实验中,本文方法在语义边缘像素上的视差结果均具有更低的误匹配率,即具有更好的性能。 本文模拟人类眼球平滑追踪运动过程中的中心视野视觉连续性,针对存在大面积弱纹理区域的简单结构场景中点云拼接算法失败率高的问题,提出了一种基于平面匹配的点云帧间位姿估计算法,为迭代最近邻法算法提供初始位姿。本文方法不依赖于场景中特征点或线的检测与匹配,而是在视野改变时追踪场景中连续的平面结构,根据平面的几何关系约束估算位姿,在弱纹理场景中具有明显优势。同时,在区域生长算法进行平面检测后,不同于追求全局最大平面匹配一致性的方法,本文方法聚合了分散的小平面,并且仅提取聚合后平面中两个互不平行的大平面进行平面匹配与位姿估计,减小了平面匹配问题的规模。实验表明,利用本文方法为迭代最近邻法算法提供初始位姿,可以加速算法收敛,并显著提升点云拼接的成功率。同时,在存在大面积弱纹理区域的简单结构场景中,本文算法相较于基于全局最大平面匹配一致性的算法点云拼接成功率更高,具有更强的鲁棒性。此外,本文方法作为初始化步骤产生的额外时间代价可以通过并行化手段以及空间代价的增加得到有效的削减,在大规模点云拼接任务中,本文方法将具有更加突出的效率优势。 综上所述,本文方法对人类视觉系统功能机制的借鉴,在提升传统算法的性能与鲁棒性等方面起到了积极的作用。可以预见,基于仿生双眼视觉提升计算机视觉算法性能,势必成为未来研究的重要趋势。