论文部分内容阅读
近年来,随着计算机视觉技术的快速发展,新兴的无人驾驶汽车、增强现实、虚拟现实等领域取得了显著的成绩,然而随着工业界的推进,这些领域在精度和效率上有了进一步需求,光流估计和双目立体匹配作为其中两个重要的子任务,依然是目前研究的热点和焦点。目前卷积神经网络已经在图像分类、目标检测、语义分割等视觉任务上取得了巨大突破,很大程度上启发了深度学习在光流估计和双目立体匹配上的应用,然而目前还尚处于起步阶段。 光流估计和双目立体匹配两个任务都是关注于两幅图片稠密像素间的相关性构建,分别计算时域和空域上每个像素点的运动矢量(本文称之为流),本文首次将这两个任务统一定义为像素流估计,其中光流估计关注于时间域上前后两帧图像像素在竖直和水平两个方向上的偏差位移,而立体匹配关注于空间域上左右两幅图像像素在水平方向上的偏差位移。本文发现像素流估计的误差一般发生在流边缘位置,且在多数情况下现有方法所依据的物体边缘可近似代替流边缘的假设并不成立。因此获取精确的流边缘并将其巧妙地引入深度模型来解决流估计的边缘误差显得尤为重要,本文主要工作如下: 1)提出了首个用于流边缘检测的深度学习模型(FBDNet),证明卷积神经网络可以直接从两张输入图中获取运动边缘或深度边缘,并在准确率和效率上均优于传统方法。 2)提出了运动边缘检测和光流估计的多任务深度学习框架(MBANet),利用双流的Decoder网络同时进行两个任务的学习,设计了一个交替迭代的算法来训练网络。实验表明两个任务可以提供互补信息并促进学习,该模型得到了边缘清晰的光流图,且在保证速度的同时大大的增加了精度,性能优于目前的实时模型。 3)提出了深度边缘检测和立体匹配的多阶段深度学习框架(DBANet),第一个阶段进行深度边缘检测,第二阶段将检测到的深度边缘和原始图像对作为输入,进行视差估计,该模型将深度边缘的先验信息传递给视差估计网络,对视差学习起到了指导作用,得到了更加精确的结果,在部分数据集上超过了著名的DispNet。