论文部分内容阅读
随着计算机科技的发展,机器人被使用于协助人类活动,甚至能独立完成对工作环境中存在物体的类型识别工作。让机器人在室内场景中有理解图像的能力,成为近几年来图像语义分割的目标之一。随着硬件能力的不断进步和对神经网络研究的不断深入,针对RGB-D分割的能力已经优于单独处理RGB图像的能力。因此现在精确的室内场景语义分割得以可能在深度图的帮助下实现。在此背景下,本文论述了语义分割和卷积神经网络的发展和要点,分析了语义分割任务下的全卷积神经网络模型的设计,以及RGB信息与深度信息的融合等技术,并且结合现有技术提出了两个基于室内图像的RGB-D语义分割模型。第一个模型是基于深度感知算子和膨胀卷积的RGB-D语义分割模型。深度感知算子是通过将二维深度图像的几何信息直接引入网络计算,从而减少数据之间的转换和图像信息的丢失。而膨胀卷积则可以让模型在不进行下采样的情况下就能够得到更多的感受野,通过对主干网络Deep Lab的改进,提取的特征包含了更丰富的语义信息,从而提高模型对语义判断的准确性。同时本文考虑了一种分层强化的思路,更好发挥了RGB图像和深度图像融合的优点。因此该模型可以快速地计算出语义分割的结果,适用于很多高敏捷性的场景。最终实验在SUN RGB-D数据集上MIOU为38.0%,在NYU Depth v2数据集上MIOU为35.1%。第二个模型是基于注意力机制的RGB-D语义分割模型。该模型使用残差神经网络为总体框架,使用注意力机制的端到端训练神经网络处理RGB图像和深度图像之间的语义信息,同时加入跳跃融合结构联合上采样和下采样之间的信息,提高分割的准确性。在研究中,我们通过注意力机制捕捉对目标任务有用的深度特征和RGB特征,并且通过特征融合模块和上下文模块,明显提升了模型识别结果。此外,还通过消融实验证明了上下文模块、跳跃连接、含有挤压和激励的特征融合模块等策略在两个数据集上的有效性。最终实验在NYU Depth v2数据集上MIOU为49.8%,在SUN RGB-D数据集上MIOU为48.3%。该模型与相近算法比较,识别准确性有明显提升,适用于室内场景中的物体识别。