论文部分内容阅读
计算机视觉是指对动物和人类的视觉形成机制进行模拟,对场景的图像信息处理与分析。随着计算机技术的快速进步,以及人工智能和模式识别等领域研究的不断深入,使得计算机视觉成为热门研究领域。三维运动是计算机视觉的重要研究内容之一,其在高端视频监控,车辆辅助驾驶,3D目标检测等领域具有广泛的应用前景。三维运动是光流的三维扩展,用场景流表示,场景流的估计精度很大程度上决定了三维运动在实际应用时的可靠性,因此正确求解场景流,提高场景流的求解精度十分重要。本论文针对场景流估计问题,利用变分法求解场景流,将场景流表示成能量泛函的形式,提出了一种基于局部刚性假设和深度图驱动的各向异性平滑的变分场景流估计方法。在运动估计中,局部方法与全局方法相比能够有效应对噪声的干扰,为提高场景流求解精度,本论文采用局部刚性假设构建能量数据项,所谓局部刚性假设,即邻域内的运动满足一致性;局部方法只能得到稀疏的场景流,为得到稠密精确的场景流估计,在局部刚性假设的基础上,引入全局平滑,采用全变分平滑约束。由于深度图边缘往往和运动边缘重合,在场景流的平滑过程中,为保持运动边界,提高场景流估计精度,利用深度图的边缘信息约束全变分平滑。因此本论文将深度图驱动的各向异性扩散张量作为全变分的权重,提出一种深度图驱动的各向异性全变分平滑项。场景流能量泛函构建完成后,利用一种分步求解策略进行场景流能量泛函的求解,引入场景流辅助变量,将能量泛函分解成基于数据项的能量泛函极小化求解和基于平滑项的能量泛函极小化求解。基于数据项的能量泛函极小化类似于加权最小二乘问题,利用高斯牛顿法迭代求解;基于平滑项的能量泛函极小化与ROF去噪模型类似,利用一种基于Legendre-Fenchel变换的ROF模型求解方法进行求解。在实验分析部分,对本论文提出的场景流估计方法进行定量和定性分析,在Middlebury立体数据集上进行测试,与其他场景流估计方法及经典光流算法进行对比分析;利用深度传感器获取真实数据进行测试,从直观的角度观察分析场景流估计的精度及运动边缘的保持效果。为突出场景流的潜在应用价值,利用场景流进行3D运动目标检测的应用,利用ISODATA算法对场景流进行聚类分析,提取出运动目标。