论文部分内容阅读
图像深度估计作为计算机理解场景三维几何关系的重要环节,是计算机视觉领域研究的热点问题。单目图像深度估计实际上是一个病态问题,因此过去研究人员对其关注度较低。但随着深度学习的发展,单目图像深度估计也逐渐成为热点研究问题。本文以现有研究为基础,提出了一种基于深层卷积神经网络(DCNN)的单目图像深度估计方法,在网络模型、模型训练方法和损失函数三个方面对以往方法进行改进,有效地提高了单目图像深度估计的精度。首先,本文根据图像深度估计是一种密集型预测任务的特点,设计了一种由编码器、多尺度特征提取器和解码器三部分构成的DCNN模型。其中编码器利用卷积和下采样抽取图像中的抽象特征;多尺度特征提取器通过不同膨胀率的空洞卷积来进一步提取编码器输出特征图的多尺度特征;解码器使用反卷积对多尺度特征提取器的输出进行上采样,使得最终输出深度图与输入图像具有相同的分辨率。与典型的编码器-解码器模型相比,本文使用多尺度特征提取器来代替部分下采样和上采样操作,因此能够保留更多的细节信息,并减少网络参数量,从而提高网络的预测精度和算法效率。其次,本文考虑到室外场景深度图获取难度大的特点,采用一种半监督的学习方法对上述网络模型进行训练:一方面以真实深度图作为训练标签进行监督学习;另一方面,利用双目立体视觉原理,将图像深度估计问题转换为图像重建问题,进行无监督学习。相比于仅使用监督学习或无监督的学习方法,这种方法在保证估计结果精度的同时,降低了对作为训练标签的真实深度图的像素完整性与稠密性的要求。最后,本文设计了一种损失函数,它由深度估计损失、图像重建损失和深度图平滑损失线性加权得到。其中深度估计损失对应于监督学习,它采用了一种自适应的Huber损失来计算真实深度图与预测深度图之间的对数域误差;图像重建损失对应于无监督学习,它计算了重建图像与真实图像之间的相似性误差;深度图平滑损失根据场景深度具有连续性的特点,计算了以输入图像的边缘信息作为惩罚因子的深度图的对数域的梯度误差,保留边缘信息的同时消除深度图中的噪点。经实验验证,本文方法的深度估计速率为18.9毫秒/帧,在KITTI数据集下的平均相对估计误差小于10%。此外,本文对比了现有的单目图像深度估计算法的实验结果,从RMSE、平均相对误差等7项性能评价指标上来看,采用本文的方法能够使深度估计的精度得到显著提升。