论文部分内容阅读
3D场景流(Scene Flow)是用于描述空间物体运动3D矢量场,在虚拟现实,目标检测、跟踪及场景理解方面有着广泛应用。随着深度传感器的普及,RGBD场景流在计算机视觉领域引起了越来越多的关注。在RGBD视频流中进行场景流估计时,传统的基于分割的方法对遮挡和大位移具有较好的效果,分层场景流方法能够根据已知场景的相对深度排序对边界建模解决遮挡问题。这类方法的遮挡和场景流估计效果会受到分割结果的影响,且现有的深度层次排序过程自动化程度低。此外,现有基于分割的方法大部分是在分割区域刚性运动的假设下进行场景流估计的,这就会使得非刚体目标的场景流估计不准确。针对以上问题,围绕3D场景流技术,本文分别针对深度图像分层技术,含有非刚性运动的场景流估计以及基于卷积神经网络的场景流估计关键技术进行了研究,本文的主要研究工作包括:(1)提出基于深度图像自动分层的场景流估计算法。该方法首先使用深度图像修复算法修复含有噪声的深度图像,接着使用SLIC超像素分割与相似区域合并算法对深度图像进行初始分层;然后在初始分层中引入光流约束实现深度图像的自动分层,最后分别在数据集Middlebury 2003,SRSF,Princeton Tracking Benchmark 上进行仿真实验,并根据视觉对比与定量分析验证该方法计算分层场景流的可行性与精确性。(2)提出基于局部刚性运动假设的场景流估计算法。该方法首先使用AR(Autoregressive Model)模型计算深度图像分层结果中层辅助函数的权重;接着使用局部刚性全局非刚性假设方法将深度图像分层结果中的每一层分成许多大小相同的块,通过计算每一块的运动信息来估计每一层的运动信息以至于整个场景的运动信息;最后分别在数据集Princeton Tracking Benchmark,Deformable 3D reconstruction上进行仿真实验,并根据视觉对比与定量分析验证该方法计算分层场景流的可行性与精确性。(3)实现基于卷积神经网络的场景流估计网络模型。该方法使用编码-解码的卷积神经网络模型估计场景流。使用FlyThings3D为训练数据集在网络模型中进行训练,在网络的训练过程中使用立体图像对作为网络的输入,由光流与视差计算的场景流作为网络的输出,该部分节省了使用专门的网络计算深度信息而花费的时间;Monkaa数据集与Driving数据集为测试集估计场景流并验证该方法的可行性与精确性。