【摘 要】
:
视觉检索任务(Visual Grounding,VG)的目的在于通过一句自然语言的查询,去定位一张图像中与该查询语句最相关的物体或区域。通常来说,为了完成这一任务,我们需要一个模型去理
论文部分内容阅读
视觉检索任务(Visual Grounding,VG)的目的在于通过一句自然语言的查询,去定位一张图像中与该查询语句最相关的物体或区域。通常来说,为了完成这一任务,我们需要一个模型去理解查询语句,识别图像中的关键概念,然后通过确定目标物体的边框(bounding box)来定位物体的位置。然而,在实际应用中,我们不得不面对有歧义的查询语句和结构复杂、场景多样的图像。因此,根据高度冗余和相互关联的信息来识别目标非常具有挑战性,常无法得到令人满意的结果。为了解决这个问题,在本文中,我们为视觉检索任务中的各种输入信息分别设计了一个注意力模块,以减轻该信息的内部冗余。然后,我们提出了一种累积式注意力(Accumulated-Attention,A-ATT)机制来对所有的注意力模块进行联合推理。用这个方法,不同输入信息之间的互相关性可以被更好的建模。此外,为了提升我们VG模型的性能和稳定性,我们还在训练过程中引入了噪声,用来缩小人工标注的训练数据和现实世界中低质数据的分布差距。在“噪声”训练策略的帮助下,我们可以进一步训练一个边框回归器(bounding box regressor),用来改进目标物体的边框,以更精确的定位物体的位置。为了验证本文方法的有效性,我们在四个主流的数据集(Refer COCO,Refer COCO+,Refer COCOg,和Guesswhat?!)上评估了我们提出的方法。实验结果表明我们的方法在速度和准确性方面都显著优于所有之前的工作。
其他文献
行人再识别作为安防领域重要的课题之一,近些年来受到了广泛的关注。随着深度学习技术在该研究方向的成功应用,该技术得到了迅速的发展。但是,在实际场景中,存在行人遮挡、姿
三维点云孔洞修补技术是一项重要的点云处理技术,由于扫描时仪器、环境等问题引起的点云孔洞会严重影响后续对点云的处理精度,尤其在进行三维重建时,点云中的孔洞往往会造成
随着互联网技术的更新迭代,以图像为代表的多媒体信息的数量开始爆炸式增长。而文字作为一类具有强语义信息的数据,对无人驾驶、机器人导航、场景理解等应用具有指导性帮助。
湿敏传感器在工业生产、农业养殖、医疗器械、环境保护以及人们日常的家用电器中发挥着重要的作用。本论文中使用两步水热法成功在玻璃基底上直接制备了薄膜型Fe2O3-ZnO复合
地方志是在一定时期内全面记录某个地区的社会、政治、自然、经济和文化方面内容的公共文化产品,地方志工作属于政府公共文化服务工作中的一部分,承担存史、资政、教化、育人的功能。我国社会处于经济发展转型新时期,传统的地方志工作模式已无法满足社会对公共文化服务的要求。因此,我们需要对地方志工作如何提供高水平的公共文化服务做进一步的探索和实践,以便更好的服务社会发展。本文从建立公共文化服务平台的角度对地方志工
当前,我们经济社会正发生的巨大的变化,随着发展的不断加快,各类社会矛盾日益凸显。在此背景下,传统的社会治理模式已不能适应当前的新形势、新问题,亟待进行创新。针对这一
气动肌肉关节能模仿动物关节运动特性,具有本质柔顺性,可增强四足机器人环境适应能力,但气动肌肉关节转动范围小,关节力矩难以测量与控制,限制了四足机器人的运动能力。具体
车载自组织网络(Vehicular Ad-hoc Networks,VANETs)作为智能交通系统的重要组成部分,为解决道路通行效率和车辆安全行驶等关键问题提供了灵活且快速的数据传输支持。然而,车
随着时代发展,汽车在我们的生活中越来越普及,随之由汽车导致的交通事故量也迅速增加,而事故发生最主要原因是由驾驶人员的不良习惯与违法操作所导致。其中车辆压线是最为常