基于空间约束自注意力和Transformer的RGB-D显著性检测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:whj0631
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显著目标检测通过模拟人类视觉感知系统来定位场景中最具吸引力的目标,在实际应用中发挥着关键作用。虽然显著目标检测已经受到学者们的广泛研究并取得了极大的进展,但仍然存在着很多问题,比如场景复杂、光照条件不足、前景和背景相似等。深度(Depth)图像可以为RGB图像提供更多的空间结构信息,由此RGB-D显著目标检测应运而生。但RGB-D显著目标检测仍面临着如何有效利用两种模态信息的巨大挑战。为了解决这个问题,近几年研究者们提出了很多方法,从特征融合策略上大致可分为三类:基于早期融合的方法、基于后期融合的方法和基于特征级融合的方法。此外,由于自注意力机制能够捕捉特征内部的相关性,擅于建模长距离依赖关系,所以基于自注意力机制的方法能够获得更优的性能。因此,本文结合自注意力机制和Transformer模型基于特征级融合的方法,提出了两种RGB-D显著目标检测模型,主要研究内容如下:(1)针对RGB图像特征和Depth图像特征的交互问题,提出了一种通用的利用金字塔空间约束与自相互注意力模型的RGB-D显著目标检测方法。首先,由于非局部操作是一种与位置无关的全局操作,本文进一步考虑空间约束,设计了空间约束的自相互注意力模块,利用多模态特征的互补性来学习具有空间上下文感知的多模态特征表示,同时计算两种模态局部的成对关系以集成自注意力和相互注意力,进而聚合两个模态的上下文特征。然后为了获得更加丰富的互补信息,扩大感受野,本文进一步将金字塔结构应用在一组空间约束自相互注意力模块中,学习到局部和全局的特征表示。最后将这个多模态融合模块嵌入到一个双分支编码-解码网络模型中,以解决RGB-D显著目标检测问题。在几个标准数据集上的实验表明,所提出的方法在RGB-D显著目标检测任务中具有较强的竞争性。(2)针对RGB图像特征和Depth图像特征的融合问题,提出了一种基于Transformer增强网络的RGB-D显著目标检测方法。利用Transformer模型具有构建长距离依赖关系的优势,设计了Transformer多模态特征增强模块。该模块使用注意力机制充分的利用RGB图像特征和Depth图像特征的互补性和一致性从而进行有效地特征融合。具体来说,该模型包括基于自注意力的多模态Transformer模块、基于交叉增强注意力的深度传播Transformer模块和空间注意Transformer模块。最后,将这个多模态特征增强模型嵌入到一个编码-解码网络模型中,以解决RGB-D显著目标检测问题。在几个标准数据集上的实验表明,所提出的方法在RGB-D显著目标检测任务中具有较强的竞争性。
其他文献
显著性目标检测就是从图像数据中找出最吸引人的部分,这部分区域被称为显著性区域。当下的一些显著性目标检测算法对于特征信息的利用不充分,使得最终训练得到的模型在鲁棒性和泛化能力方面较差。许多显著性算法都是针对可见光图像的,但是当可见光图像受到阴霾、光照等因素影响的时候,使用热红外图像效果可能更好。考虑到热红外相机在这些因素下受到的影响相对较小,本文针对RGB-T图像进行显著性检测研究,通过结合可见光图
学位
指静脉识别技术凭借其采集方便、安全性高、实时性好、活体检测等优点受到国内外研究团队广泛关注。近年来,指静脉识别领域已经取得了阶段性进展,但在实际应用时,仍遇到了许多问题:(1)受采集技术和采集装置的制约,所捕获的指静脉图像噪声多、清晰度差、对比度低、存在小范围的位移和旋转、类内样本图像之间差异较大;(2)传统指静脉图像特征提取算法对图像质量要求高,对光照变化和位移旋转敏感。因此,本文围绕指静脉图像
学位
近些年,基于单目图像的三维人体关节点估计引起学者们的广泛关注,可应用于视频监控、行为识别、三维建模、人机交互等多个领域。但是其存在较多的研究难点,例如输入图像的暗光、模糊、遮挡,以及由二维数据重建三维结构的歧义性问题等。因此,本文研究由单目序列图像估计中间帧三维人体关节点的方法,主要包括两个阶段:首先利用二维人体关节点估计算法预测序列图像的二维人体关节点位置,然后以此作为输入数据回归中间帧的三维人
学位
人脸检索旨在从人脸图像数据库中找到与查询图像最为相似的人脸图像,是计算机视觉领域广受关注的课题之一。随着移动互联网的发展,人脸图像规模呈指数级上升,这对人脸检索的存储空间和检索时间有着很高的要求。由于哈希码存储空间小、检索时间快,研究人员将哈希技术用于人脸信息存储和检索工作。但由于人脸图像受光照、表情、视角、年龄等多种因素影响,难以获得“类内高内聚,类间高可分”的哈希编码。本文针对此问题,给出两种
学位
在智能交通管理中,对于车辆的身份识别离不开车牌检测技术的支撑,目前基于深度学习的车牌检测研究已经日臻完善,但是对于大型车辆而言,容易受监控视角和车身污渍等影响导致车牌检测算法难以获得车辆身份信息。根据道路安全法的相关规定,大型车辆需要在车尾区域喷涂非标车牌,于是本文通过研究非标车牌检测来解决上述问题。与标准车牌相比,非标车牌存在字符间隔大、成像质量差和背景复杂等挑战,加大了非标车牌检测任务的难度。
学位
近些年来深度学习发展迅速,在不同领域都有着广泛的应用,尤其是图像分类方面效果显著,其中基于深度学习方法挖掘图像的显著性特征,在此基础上训练网络分类模型是其关键步骤之一。卷积神经网络(Convolutional Neural Network,简称CNN)是当前深度学习研究中最有效和常用的技术之一,可以自动进行图像特征的抽取,其参数共享和连接稀疏性的机制相比传统的神经网络不仅参数更少,效果也更加显著,
学位
随着互联网和移动终端设备的快速发展,越来越多的用户数据被推荐系统用来提高推荐的性能,准确性和多样性成为衡量推荐效果的两个重要指标。然而,这两个指标是相互冲突的,很难同时优化两者。一个通用的做法就是应用多目标进化算法,以平衡两个目标间的冲突。但多目标推荐过程中,用户需要将自己的原始数据发送给不可信的第三方服务器,这会造成严重的隐私泄露。差分隐私是近些年来非常流行的推荐系统隐私保护方法,但目前缺少多目
学位
学位
多肽是一种天然存在的物质,大小从2到50个氨基酸不等。自20世纪胰岛素疗法出现以来,肽疗法在医学实践中发挥了显著的作用。与传统的药物相比,他们具有几个优点:易于合成、毒性低、较高的靶向特异性和选择性。癌症和病毒感染一直是导致死亡的主要原因,对人类健康有很大的影响,也是发达国家和发展中国家关心的健康问题。传统的癌症治疗方法依赖于放疗和化疗,这也给患者带来了严重的副作用。作为一种治疗肽,抗癌肽(ACP
学位
遥感图像工厂提取作为计算机视觉领域中新兴的热点研究课题,不仅在学术上推动了建筑物提取和道路检测等遥感领域的理论研究,而且在工程应用上为城市规划管理、土地利用和地图更新等系统提供了技术支持。随着深度学习的快速发展,遥感图像的目标提取任务取得了突破性的进展,但其算法在工厂这一类别上由于特定的诸多挑战依旧难以发挥优越的性能,例如工厂外观上存在颜色、纹理、尺度的巨大差异性以及遮挡、阴影等挑战。另外,高分辨
学位