论文部分内容阅读
场景的三维语义表面重建是通过相机拍摄的视频图像序列来重建场景的三维语义表面信息,其在增强现实、无人驾驶以及室内机器人等领域具有较高的研究价值。随着深度学习的不断发展,将基于深度学习的语义分割应用到场景语义表面重建领域也逐渐成为可能。本文设计了基于RGB-D相机的三维语义表面重建系统,重点开展了相机位姿的实时跟踪和优化、单帧RGB-D图像的语义分割以及场景的三维语义表面重建技术三个方面的研究。主要的创新点和贡献如下:为了保证特征点在图像中均匀分布,本文研究了自适应的ORB特征点提取算法,保证了前后帧图像的重叠区域有足够的特征点来估计相机的位姿。本文设计了有效的关键帧策略,该策略既保证了相机位姿跟踪的鲁棒性,又避免了关键帧的冗余。为了提高系统对于室内环境中相机各种运动情况下的相机位姿跟踪的鲁棒性,本文研究了基于光流跟踪的特征点匹配方法。该方法对于相机快速旋转运动、往返运动的跟踪具有很好的鲁棒性。为了提高卷积神经网络语义分割的精度,首先,本文提出了具有恒等捷径连接的空间金字塔网络模块用于提取图像的多尺度信息,金字塔并行网络的不同尺度通过设置卷积核中“孔”的不同大小来实现,并通过恒等连接结构设计成残差网络模块来加速网络的训练,金字塔模块显著改进了网络语义分割的精度。其次,本文设计了RGB-D特征信息多级融合网络模块用于综合彩色图像的纹理信息和深度图像的结构信息,该网络模块通过多级特征图融合网络,充分综合了彩色图像和深度图像浅层特征和深层特征的信息,进一步提高了语义分割的精度。基于TSDF空间网格模型对大尺度场景进行三维语义表面重建,并根据语义信息的特点,本文研究了三维语义体积元的表示方法、融合方法和语义表面生成方法。为了实现大尺度场景的表面重建,系统不断地将TSDF空间网格模型沿着相机轨迹进行位移。同时,本文还提出了将三维语义投射图与单帧语义分割图进行融合的算法。该算法不但提高了单帧语义分割的精度,而且提高了前后帧图像间语义分割结果的连贯性和稳定性。最后,本文搭建了语义SLAM系统实验平台。研究并设计了软件系统的实时性优化方法,提高了系统整体的实时性。在TUM RGB-D数据集上验证了本文设计的语义SLAM系统对于相机位姿跟踪的鲁棒性。在NYUv2数据集上验证了融合语义图对于单帧图像语义分割结果的改进。在大尺度数据集上验证了系统对较大尺度场景的三维语义表面重建的性能。