结合多模态信息与全局自注意力机制的场景识别研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:lzg31142003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,现代智能系统发展迅猛,对于智能系统来说,了解其所在地点及周围环境非常重要。场景识别的目的就是帮助计算机理解周围环境,它可以描述图像所属的场景类别,而不只是列出场景中的对象。如今,场景识别广泛应用于人机交互、智能机器人、智能视频监控和自动驾驶等领域,已成为机器视觉领域的重要任务之一。目前,场景识别性能的提高主要得益于具有海量参数的复杂卷积神经网络的蓬勃发展和大规模数据集提供的必要训练样本。随着低成本深度传感器的快速发展,基于RGB图像和深度图像两种模态信息的场景识别成为新的研究方向。有研究表明这两种模态具有良好的互补性,有助于促进场景识别性能。另外,场景图像具有目标种类繁多,空间分布复杂的特点,对图像进行整体建模往往效果不佳。而注意力机制可以在学习过程中实现对有用信息的关注,并抑制无用信息,非常适用于场景识别任务。近几年,Transformer模型的出现将注意力机制推向一个新的高度,如何利用Transformer模型思想推动机器视觉发展是目前的研究热点。基于先前的研究,本文研究了结合多模态信息和全局自注意力机制的场景识别方法,主要研究内容包括:(1)广泛阅读了与场景识别相关的文献,了解了场景识别相关算法及注意力机制在国内外的研究现状,阐述了场景识别的研究背景和意义。深入分析了场景识别当前遇到的问题和挑战,并介绍了具有代表性的场景图像数据集。(2)分析比较了最新的基于RGB-D的场景识别算法,研究了经典的注意力机制方法,通过实验分析,得出结合RGB图像和深度图像的场景识别性能更佳的结论,同时证明了注意力机制有助于进一步提高场景识别准确率。(3)研究了Transformer模型在机器视觉任务中的发展现状,介绍了Transformer模型的基础结构。为了进一步理解Transformer的优越性,研究了Transformer模型中的关键技术。之后,将Transformer模型应用于场景识别任务中,通过实验证明了该方法的可行性。(4)提出了一个端到端可训练的双通道深度神经网络模型,该方法结合了多模态信息和全局自注意力机制实现场景识别,称为SR-MGA(scene recognition based on multi-modal information and global self-attention mechanism)模型。该模型分为四个网络模块:序列生成网络、全局自注意力编码网络、特征融合网络和分类网络。双通道结构一样,都由序列生成网络和全局自注意力编码网络组成。而全局自注意力编码网络由多个全局自注意力编码模块构成。为了解决网络易过拟合的问题,在全局自注意力编码模块的残差连接上加入了Dropout。另外,在双通道之间加入了侧向连接,以进一步挖掘两种模态之间的互补性。(5)对提出的SR-MGA模型中的策略进行了验证,并在SUN RGB-D数据集和NYUD2数据集上对SR-MGA模型的性能进行了实验分析,结果表明SR-MGA模型的性能远超于其他场景识别方法,证明了SR-MGA模型的有效性。
其他文献
随着国家“碳达峰、碳中和”能源战略目标的提出,以分布式光伏为代表的新能源在配电网中的占比不断提高,在提高能源利用率、减轻环境负担的同时,新能源发电的尖峰性和间歇性也会导致配电网出现时段性电压越限等问题,危害配电网的安全稳定运行。一方面,传统的分散式电压控制会导致不同调压设备之间难以协调,无法得到全局最优电压控制策略,难以解决全网分散化的电压越限问题;另一方面,分布式电源的大规模应用和电力电子器件的
学位
近年来,作为计算机视觉领域一个具有挑战性的研究课题——图像语义分割,在自动驾驶、医疗影像分析、无人机落点判定以及航天卫星遥感等现实场景中发挥了至关重要的作用。受益于深度学习中卷积神经网络在图像处理领域的巨大成功,目前的语义分割任务在性能方面取得了显著提升。然而,大多数语义分割方法只是通过不断增加模型复杂度来提高分割效果,却忽略了硬件资源内存、显存消耗和推理延迟等问题。针对以上问题,本文基于深度卷积
学位
近年来,随着计算机视觉技术的迅速发展,人脸表情识别已成为该领域的研究热点之一。人脸表情识别是从视觉信息中提取人脸区域并进行情绪识别的技术,它赋予计算机理解人类情绪的能力。尽管传统的图像识别网络已经在人脸表情识别上取得了一定成果,但在实际应用中仍未达到令人满意的效果。实际场景下的人脸表情识别主要面临如下两个问题,分别为图像退化问题和特征优化问题。图像退化问题是由于人脸表情数据采集过程中存在各种干扰,
学位
无线传感器网络(Wireless Sensor Networks,WSN)的寿命有限问题近年来已引起越来越多的关注。无线充电技术的发展为传统无线传感器网络演变为无线可充电传感器网络(Wireless Rechargeable Sensor Networks,WRSN)提供了技术支持。在合理的充电规划下,利用无线充电技术为网络中能量不足的节点补充能量,能有效地解决无线传感器网络寿命有限问题。在此背景
学位
伴随着现代科学技术的不断升级与发展,控制理论与计算机科学、电子信息工程、人工智能、等学科不断交叉融合,在航天、化工、电力等各式应用场景中已经成为了炙手可热的研究方向。在这些应用场景中,对各种复杂系统的研究与分析也成为了现时研究学者们的重要任务。奇异系统和在其分类下的奇异摄动系统均为较典型的复杂系统,对于实际的应用场景相比较正则系统有着更广泛的适用度,且随着工业生产的智能化、整体化的程度不断提高,安
学位
随着网络的快速发展,智慧城市和元宇宙等概念的提出,以及移动终端的种类和数量不断增加,未来预计会产生大量数据,导致传统云计算难以满足移动终端对低时延的要求,同时移动终端有限的算力难以处理海量的数据。移动边缘计算被认为是一项重要的技术用来解决这些问题。将计算任务从移动设备卸载到更靠近移动设备的边缘服务器可以有效减少网络延迟和任务处理时间。然而合理地部署边缘服务器是一个具有挑战的问题。在某区域内,可能有
学位
随着电子信息产业的飞速发展,电子器件不断趋于集成化和智能化。然而,遵循着“摩尔定律”的传统硅基半导体的尺寸已接近其物理极限。若继续缩减尺寸,则会因为量子隧穿效应的出现以及高集成度导致的发热问题严重影响器件性能。当前急需找到可以代替传统半导体的新材料。2004年,石墨烯的发现将二维材料带入人们的视野当中。二维磁性材料作为二维材料中的一员,有着较弱的层间范德瓦尔斯作用力且在原子层厚度仍能维持自发磁化。
学位
电介质电容器由于其超高的充放电速率和极高的功率密度,已成为脉冲电源设备中最重要的部件之一。在诸多介质电容器储能材料中,由于陶瓷电容器具有中等的击穿场强、低的介电损耗以及优良的温度稳定性等优点,在航空航天、石油钻井和电磁脉冲武器等领域有广阔的应用前景。因此,设计和制备综合性能优异的陶瓷电容器十分重要。铌酸钠(NaNbO3)由于其制备原材料成本较低,且烧结时不需要额外的保护气氛,所以是当下无铅电介质储
学位
目前,人体状态识别在工业和学术上都有着广泛的运用。脑电信号(Electroencephalography,EEG)真实反映了个人的状态,由中枢神经产生,人体的生理状态与中枢神经也息息相关,因此通过脑电信号识别具有很强的客观性,并逐渐成为疲劳检测和情绪识别领域中可靠的生物信号之一。基于脑电信号识别人体状态对于驾驶和高空作业等领域具有极为重要的意义,所以脑电信号识别人体状态逐渐成为研究热点。脑电信号是
学位
随着移动通信技术的快速发展,LTE组网已经十分成熟,5G组网逐步完成部署,无线移动网络能够提供高速率、低时延的数据流量服务,同时在某些特殊场景下也存在负荷过大、频谱资源不足、信号覆盖不均匀等问题。D2D通信作为5G的一项关键技术,在提高频谱利用率、增大系统容量、降低能耗以及优化常规的信号覆盖问题上能够起到关键作用。D2D通信的关键步骤包括资源分配和用户配对两大部分。资源分配又分为频谱资源分配和功率
学位