基于RGB-D图像的室内场景语义分割算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:usaend
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,图像语义分割已经广泛应用在诸多领域,随着软硬件的升级和应用的扩展,对于分割精度的要求越来越高。室内场景呈现出环境多变、光照不均、物体间关系复杂等特点,仅仅依赖包含颜色信息的RGB图像难以对室内场景进行精准分割。采集室内场景的RGB-D图像,引入深度图像的空间信息,作为RGB图像的互补信息,可以有效改善物体易受复杂环境干扰的问题,提升语义分割的精度。其中RGB图像用以描述物体的颜色信息,深度图像描述物体的空间几何关系。然而,如何高效的提取和融合两种模态信息依然是个挑战,吸引着众多学者的关注。为此,本文开展了以下两个方面的研究:(1)针对现有的大部分RGB-D图像语义分割算法模型融合方式过于简单的问题,提出了基于卷积注意力的双向传播语义分割算法。新算法构造分支-融合结构,其中分支结构利用两个独立的卷积神经网络分支分别从RGB图像和深度图像中提取特征,融合结构通过构造多模态特征融合模块实现特征处理并采用双向传播策略传送回原RGB和深度分支进行信息互补。多模态特征融合模块可以重点关注RGB和深度特征中信息量丰富的区域,以提高模型的语义分割效果。实验结果表明,在NYUDv2和SUN-RGBD两个数据集上的最终语义分割精度m Io U指标分别为49.2%和48.3%,领先于大多数先进语义分割算法模型。然而该模型对场景内的小目标物体不够敏感,相比于其他类别的物体,易出现边界分割模糊和类别识别错误的问题。(2)针对室内场景小目标物体分割精度不佳的问题,进一步提出基于坐标注意力的三支流语义分割算法。该算法重新构造了针对RGB-D特征的多模态特征融合模块,以进一步融合深度图像中的空间特征信息;然后添加新的卷积神经网络融合分支代替原有的双向传播策略处理融合特征,以减少原RGB分支和深度分支的特征信息丢失;最后在编码器和解码器之间添加ASPP模块,以聚合不同尺度的特征信息。实验结果表明,相比于原分割算法,改进后的算法模型在NYUDv2和SUN-RGBD两个数据集上的最终语义分割精度m Io U指标分别提升了1%和0.6%,新模型的整体分割性能得到了提升,同时对于小目标物体,也提升了边界分割的精细度和类别分类的准确率。
其他文献
癫痫是一种常见的神经性疾病,其发病原因是大脑神经细胞异常放电所导致的神经系统短暂性紊乱,其危害巨大,潜藏着致命的伤害。在传统的癫痫病诊断中,医生凭借其专业技能,通过对脑电图(Electroencephalogram,EEG)的分析来进行癫痫诊断,但人工检测的方法存在费时费力的弊端,因此,新兴的自动癫痫检测技术成为了研究热点。论文利用基于深度学习的癫痫检测算法来实现EEG的自动分析。研究表明,各个脑
学位
切换系统作为一类具有多模态特性的系统模型,能够为许多实际工业过程进行系统建模,同时切换系统的研究也为其他复杂系统提供了研究思路,因此切换系统具有重要的理论研究价值和实际工程应用价值。具体来说,切换系统是由多个子系统以及切换规则组成的,切换规则的存在增加了系统稳定性分析的难度,因此如何为切换系统设计有效的控制策略是一个具有挑战性的课题。另一方面,未知非线性和不确定性广泛存在于实际工业系统中,这些因素
学位
基于全光信息处理的光学人工智能系统在目标识别等领域均具有巨大发展潜力。与传统的基于计算机平台的深度神经网络相比,光学人工智能系统将对光学目标进行相应的识别处理,相对于数据集图片的强度信息,光学目标样本还具有波长、相位、偏振等实际物理信息。因此为生成更加一般化的真实光场目标,进一步优化光学人工智能系统面向真实物理场景性能,本文进行如下工作:(1)分析并研究了光场重建的几种不同方案,并对其器件发展及研
学位
生物识别技术作为一种新型的身份认证技术,广泛地应用于访问控制和权限管理的领域。目前生物识别的研究更多关注于识别的准确性和高效性,往往忽视了生物特征信息的隐私保护。由于生物特征模板具有唯一性、不可撤销性且与身份隐私信息密切相关,在生物认证过程中容易引起攻击者的窃取、伪造甚至假冒用户身份访问系统的在线资源,导致严重的隐私泄露风险。基于现有的椭圆曲线加密算法(Elliptic Curve Cryptog
学位
随着城镇基础设施的完善,公共场所也逐渐增多。因此,公共场所内的群体安全问题也逐渐受到人们的重视。当意外情况发生时,处于危险中的人群在缺乏正确引导的情况下可能会产生严重的恐慌情绪,在盲目的逃生中相互拥挤进而引发踩踏事故会造成重大伤亡。因此,如何在意外情况下减小踩踏事故的发生概率是一个亟需解决的问题。计算机仿真技术可以模拟疏散过程并为意外情况下的人群疏散提供决策支持。因此,人群疏散仿真技术在解决紧急情
学位
癫痫是由大脑中枢神经元异常放电引起的神经系统疾病。当癫痫发作时,病人会突然失去意识并全身抽搐,若不及时采取抢救措施,则会危及生命。随着医疗设备的进步与机器学习的快速发展,基于脑电图(Electroencephalogram,EEG)的癫痫自动检测方案逐渐替代了传统的人工诊断。最新的神经医学研究表明,大脑不同区域之间存在着相互影响机制。现有的癫痫检测算法考虑了多通道脑电信号时间维度层面的特征,但忽略
学位
由于在军事、航天、农业、工业等领域的重要应用,自动化和智能化的控制理论一直受到各国的广泛重视。然而,随着各行各业对控制系统性能要求的不断提高,传统的线性反馈控制已经很难满足各种实际的控制需求,其原因是大多数实际控制系统本质上是非线性的,例如质量-弹簧-阻尼器系统,航空航天系统,机器人系统等。另外,许多实时应用平台需要严格的时间调度来限制控件的响应时间,例如一个机器人必须在每一个指定的时间内到达一个
学位
在信息化时代,数据信息呈现出爆炸式增长的趋势,进而产生了具有多种特征描述的多视图数据。面对海量数据,如何有效的将数据按照相似性进行分类以减少数据的杂乱程度,以便更好的帮助学者分析和利用数据的潜在价值显得尤为重要。多视图聚类方法能够从不同的角度描述数据的特征,有效揭示数据的内部结构,通常具有比单视图聚类方法更优的聚类性能,因此其在多视图数据分析中的应用越来越广泛。目前,子空间聚类在处理多视图数据聚类
学位
随着深度学习技术的不断发展,卷积神经网络被广泛应用于很多科研领域,深度学习技术已成为解决计算机视觉领域问题的有效手段之一。当前,目标检测在智能视频监控、机器人导航、航空航天等领域中发挥着较大的作用,被研究者广泛关注。大数据时代的到来,数据量呈指数级增加,同时图形处理器(GPU)等硬件设施的更新迭代带动了目标检测算法的快速发展。Logo检测作为目标检测的一个分支,从图像中检测出Logo是确定品牌最具
学位
伴随机器视觉技术在农机装备、智慧农业等领域中的不断创新,农业基础与核心技术也在随之快速夯实与突破,加速推动农业的自动化与智能化进程。其中,目标果实的精准、高效识别在智能采摘、生长监测、产量预估等农业生产环节中扮演着重要角色,是实现农业自动化作业的基本保障。然而在自然环境下,果园呈现复杂化、非结构化等特点,非常规姿态果实、多光照环境、多角度机位采集等因素均制约着果实的识别效果,绿色果实受同色系枝叶背
学位