论文部分内容阅读
场景深度估计是计算机视觉领域的一个重要课题。对于很多计算机视觉任务,在二维图像当中加入额外的场景深度信息,能简化任务的难度,有效提升算法的性能,例如目标检测,视频监控,语义分割等。本文主要研究从单帧彩色图或者稀疏的深度图中获取稠密深度信息。基于机器学习的单目深度估计算法由于模型拟合能力差,估计的深度精度较低。在室外大场景中,深度信息一般通过激光雷达采集的三维点云投影到彩色图中生成。由于单位周期内扫描到的点云有限,得到的深度图十分稀疏。针对这两个问题,提出基于卷积神经网络的单目深度估计和深度补全研究。本文主要工作内容和创新性成果如下:(1)提出一种基于不确定性的扩张残差卷积神经网络,用于改进单目深度估计中传统机器学习方法预测深度精度低的问题。该方法结合扩张卷积和跳变连接,不仅提升了预测深度的整体精度,而且在边缘细节方面表现更优。此外,提出一种不确定性学习的方法,解决目前用于单目深度估计的卷积神经网络表达能力强,但无法评估输出结果可靠性的问题。该方法通过建模不确定性,可以预测估计深度的置信度,同时提升模型预测精度。(2)提出一种基于半监督学习的深度补全算法,解决激光雷达测量得到的点云投影到彩色图像空间后生成的深度图十分稀疏的问题。该方法利用包含丰富场景信息的彩色图指导网络估计稠密深度图,克服输入的稀疏深度图只能表达极少部分区域的信息,提升模型预测精度。提出一种彩色图和深度图后期融合的方法,解决两种图像由于表达内容,表达范围,表达能力各异,直接融合预测精度没有提升的问题。(3)提出一种基于CNN估计深度的单目稠密重建系统,改善传统单目重建方法在低纹理区域或者纯旋转情况下表现差的问题,得到了更加逼真的重建效果。