基于深度学习的RGB-D语义分割方法

来源 :杭州师范大学 | 被引量 : 0次 | 上传用户:zhusanhuiit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科技的发展,机器人被使用于协助人类活动,甚至能独立完成对工作环境中存在物体的类型识别工作。让机器人在室内场景中有理解图像的能力,成为近几年来图像语义分割的目标之一。随着硬件能力的不断进步和对神经网络研究的不断深入,针对RGB-D分割的能力已经优于单独处理RGB图像的能力。因此现在精确的室内场景语义分割得以可能在深度图的帮助下实现。在此背景下,本文论述了语义分割和卷积神经网络的发展和要点,分析了语义分割任务下的全卷积神经网络模型的设计,以及RGB信息与深度信息的融合等技术,并且结合现有技术提出了两个基于室内图像的RGB-D语义分割模型。第一个模型是基于深度感知算子和膨胀卷积的RGB-D语义分割模型。深度感知算子是通过将二维深度图像的几何信息直接引入网络计算,从而减少数据之间的转换和图像信息的丢失。而膨胀卷积则可以让模型在不进行下采样的情况下就能够得到更多的感受野,通过对主干网络Deep Lab的改进,提取的特征包含了更丰富的语义信息,从而提高模型对语义判断的准确性。同时本文考虑了一种分层强化的思路,更好发挥了RGB图像和深度图像融合的优点。因此该模型可以快速地计算出语义分割的结果,适用于很多高敏捷性的场景。最终实验在SUN RGB-D数据集上MIOU为38.0%,在NYU Depth v2数据集上MIOU为35.1%。第二个模型是基于注意力机制的RGB-D语义分割模型。该模型使用残差神经网络为总体框架,使用注意力机制的端到端训练神经网络处理RGB图像和深度图像之间的语义信息,同时加入跳跃融合结构联合上采样和下采样之间的信息,提高分割的准确性。在研究中,我们通过注意力机制捕捉对目标任务有用的深度特征和RGB特征,并且通过特征融合模块和上下文模块,明显提升了模型识别结果。此外,还通过消融实验证明了上下文模块、跳跃连接、含有挤压和激励的特征融合模块等策略在两个数据集上的有效性。最终实验在NYU Depth v2数据集上MIOU为49.8%,在SUN RGB-D数据集上MIOU为48.3%。该模型与相近算法比较,识别准确性有明显提升,适用于室内场景中的物体识别。
其他文献
学位
学位
学位
参与全球价值链分工是促进中国制造业发展的重要动力来源,全球价值链分工体系的形成使得各国企业有机会参与全球价值链中的任一环节,而无需掌握生产的全部知识和技术,这为中国制造业提供了前所未有的发展机会。然而,中国作为制造业大国,在对外贸易发展取得显著成就的同时,也面临着被锁定在全球价值链分工低端环节的风险。同时,中国对外贸易发展所面对的国内外形势也在发生变化。一方面,中国国内人口红利不断减弱,劳动力价格
学位
学位
学位
裂纹问题在实际工程中普遍存在,是引起工程事故的主要原因,而拉伸载荷是造成含裂纹结构件发生疲劳破坏的主要载荷形式。对于含裂纹结构件,在拉伸载荷作用下裂纹的扩展对其使用寿命的预测起着非常关键的作用。本文以荷载滑动摩擦疲劳系统为研究对象,基于断裂力学理论及有限元方法分析了滑动摩擦效应对裂纹扩展的影响,主要研究工作如下:首先,运用ABAQUS建立含1/4椭圆型表面裂纹结构件的有限元模型,运用ABAQUS有
学位
研究背景:在世界范围内,糖尿病(diabetes mellitus,DM)是一种常见的多发性代谢性疾病,由于神经病变导致的糖尿病神经病理痛(Diabetic neuropathic pain,DNP)是最严重的一种并发症,涉及进行性神经元损伤和功能障碍。背根神经节(dorsal root ganglion,DRG)中的神经元负责伤害性信息的传递,并且DRG中表达的分子或受体功能改变会导致疼痛。神经