论文部分内容阅读
基于图像的三维重建是一种从图像中获取三维信息并重新构建场景模型的研究,一直以来都是计算机视觉方向的一个重要研究类别。随着计算机视觉研究的深入和硬件设备性能的提升,三维模型在测绘、教育、医学、影视和娱乐等方面发挥出越来越重要的作用。不仅如此,场景的语义重建在增强现实、无人驾驶等领域的研究价值也日益突显。目前基于Marr的视觉理论框架,形成了诸多基于不同机制、不同设备、不同假设的三维重建方法。其中单目摄像头成本便宜,使用灵活,在实际生活中应用广泛,因此研究单目视觉三维重建技术更具有应用价值。传统的基于图像的的重建算法在缺乏纹理,几何条件复杂,结构单调等情况下都难以发挥很好的作用。当前,深度学习快速发展,将基于深度学习的方法应用于三维重建逐渐变为可能。另外,深度学习在语义分割方面的也取得了长足的发展,将语义信息融合到三维模型上形成语义三维模型也成为重要的研究方向。本文重点开展了特征点提取、图像深度稠密估计以及结合深度图的图像语义分割三个方面的研究:1.特征点提取是基于特征点的三维重建系统的基础。特征点的稠密度、准确度影响了运动结构恢复的准确性。本文研究了基于深度学习的自监督特征点提取算法,采用端到端的方式同时获得特征点位置和描述子,在保证产生足够数量特征点用来进行位姿估计和优化的同时,也兼顾了特征点的可重复性、稳定性和提取速度。2.为解决传统单目图像深度估计强依赖于特征点稀疏程度,纯深度学习估计算法数据需求大、解释性差且精度不高的问题,本文研究了融合几何信息的稠密深度估计算法。模型改进了成本体构造方法和成本体正则化网络,在占用更少硬件资源的同时获得了更精细的深度估计。这样就可以利用得到的深度图进行基于深度融合方法的场景稠密三维重建。3.为了提高深度神经网络语义分割的精度,本文研究了主流的几种语义分割深度神经网络的设计思路和具体方法,在DeepLab v3+网络结构的基础上,添加了一个深度图网络分支,通过RGB网络和深度图网络的多级信息融合以及多尺度信息融合获得更精确的语义分割结果。最后,本文在上述主要研究内容结果的基础上搭建了语义三维重建实验平台。使用开源数据集在平台上进行实验,研究这个实验平台的有效性和性能。另外,本文使用自行拍摄的五种场景下的图像在实验平台上进行语义三维重建,证明了实验平台在实际场景中的可用性。