论文部分内容阅读
立体匹配作为获取场景深度信息的主要方式之一,广泛地应用在虚拟现实、机器人导航和机器视觉等领域。随着近年来深度学习的迅速发展,相较于传统的立体匹配方法,端到端的立体匹配网络在整体精度和计算效率等多方面得到了极大的提升。但对于低纹理、前景物体不明显等复杂区域,端到端的立体匹配网络虽然相较于传统方法有一定程度的改善,但是仍然难以得到十分准确的视差结果。相较于构建单一的立体匹配网络,在立体匹配网络中联合语义分割的方法能够提高立体匹配的整体精度,并在复杂区域得到更为准确的视差估计结果。本文针对如何在立体匹配网络中有效、合理地联合语义分割进行了研究,主要研究内容如下:(1)对现有的立体匹配网络和语义分割网络进行研究与分析,整理了现有网络的一般框架,根据两个任务在网络框架、特征类型以及输入输出形式等方面的共通性与互补性,归纳总结出基于多任务、基于语义特征以及基于语义代价体的三种联合模式。(2)针对现有联合模式对语义分割相关信息利用不足的问题,提出了基于语义代价体优化立体匹配结果的联合模式。该方法利用已有的视差结果在较小的残差范围下构建单独的语义代价体,并据此估计视差残差以实现已有视差结果的细化。构建单独的语义代价体的方式既能够利用到单目语义特征来引导物体边缘部分的视差估计,也能够通过语义特征之间的匹配关系进一步完善原本特征难以匹配的区域,更完整地、充分地利用到语义信息。同时残差结构的设计减小了语义代价体的规模,减少了处理语义代价体所需要的计算消耗。(3)构建了统一的网络框架对上述联合模式进行具体设计,并在相同的测试数据集上对多个联合模式产生的立体匹配结果进行了整体的精度评估和复杂场景下的可视化对比,验证了联合语义分割的有效性,对各个联合模式进行比对。