【摘 要】
:
以图像作为输入,使用计算机自动生成有意义的文本描述,称为图像描述生成(Image Captioning)。因其位于计算机视觉和自然语言处理两大研究领域的交汇处,以及广泛的应用前景,吸引着越来越多的科研工作者致力于此。图像描述生成任务成为近年来的研究热点之一。场景图对图像中对象之间语义关系进行注释。通过生成图像的场景图,为图像描述生成模型引入对象之间关系的引导来增强区域级特征,有利于推理出正确的文本
论文部分内容阅读
以图像作为输入,使用计算机自动生成有意义的文本描述,称为图像描述生成(Image Captioning)。因其位于计算机视觉和自然语言处理两大研究领域的交汇处,以及广泛的应用前景,吸引着越来越多的科研工作者致力于此。图像描述生成任务成为近年来的研究热点之一。场景图对图像中对象之间语义关系进行注释。通过生成图像的场景图,为图像描述生成模型引入对象之间关系的引导来增强区域级特征,有利于推理出正确的文本描述。然而,现有的场景图生成模型不可避免地会预测出大量的冗余噪声关系,这对图像描述生成任务造成了很大的负面影响。为了有效利用场景图中对描述起积极作用的语义关系,减少噪声关系的干扰,在构建图像的场景语义关系图后,本文提出了一个门控图注意力编码器,联合注意力机制和门控机制自动聚焦于对生成描述有用的关系,并聚合这些关系来生成关系感知的区域级特征。具体来说,注意力机制在输入的一组关系中进行分配权重,用来区分有用关系和无用关系;门控机制对注意后的关系再次评估其可利用价值,以此降低冗余关系对描述生成的影响。此外,在生成描述的解码器端,本文设计了一个全局自适应注意模块,综合利用图像全局特征和区域级特征,来指导描述生成。最后本文在流行的图像描述生成数据集MS-COCO基准上进行了广泛的实验。实验结果表明,本文提出的门控图注意网络模型优于目前通过引入语义关系来指导图像描述生成的最新方法。通过消融实验分析,验证了模型中各个模块的有效性。
其他文献
军用车辆作为现代地面作战的重要装备,通过无线电通信方式与外界保持联系,要求通信系统具有容量大、质量好、可靠性高、保密性强等特点,同时为了保障军事机密,要求军用车辆具备军事伪装和隐身技术。电磁抗干扰是实现高质量通信和电磁防护的重要技术。超宽带陷波天线和吸波超材料是两种技术的典型应用。超宽带陷波天线不仅有高的传输可靠性、大的系统容量及简单的结构,还能够避免受到窄带信号的干扰,为军用车载通信设备提供较高
近场动力学理论(Peridynamics,PD)作为一种非局部的理论,以积分形式构建运动方程,对在多部位萌生、沿任意路径进行扩展的裂纹进行模拟计算。但近场动力学理论存在计算过程复杂,仿真时间长,模型越大计算周期越长等问题。以目前计算机的计算能力难以实现对裂纹与损伤状态进行实时的可视化仿真模拟和预测。随着深度学习相关理论的发展,可以为上述问题提供切实可行的解决方案。本文基于生成对抗网络(Genera
自2004年石墨烯被发现,科研工作者对各类新型二维(2D)材料的开发开始广泛关注。膜分离作为2D材料的直接应用领域,焕发出新的生机。2D材料本身的片状结构和原子层级厚度使其成为构筑分离膜的理想选择,由纳米片简单组装而成的2D膜具有超薄的厚度和极低的传质阻力,以及可精确控制的孔结构和层间通道赋予2D膜优异的分离性能,但膜有效分离尺寸和被分离物质水合半径不匹配导致截留率与渗透通量二者相互制约,限制了膜
Tetrel键是第IV主族原子化合物与电子给体形成的一种非共价相互作用,其在晶体工程、化学反应、分子识别和生物体系等领域有着广泛的应用。本论文利用理论计算研究了一种π-空穴tetrel键和三种σ-空穴tetrel键复合物,通过取代、协同以及外电场效应来增强其强度,进而实现-TX3基团发生转移。主要研究成果如下:X2T’Y分子(T’=Si、Ge和Sn;X=F、Cl和H;Y=O和S)平面上方的π-空穴
物质点法结合了拉格朗日法和欧拉法的优点,其在大变形问题中拥有非常高的潜力,已成功应用于许多涉及大位移和大变形的工程问题。然而物质点的生成一直没有很好的方式。对于复杂几何形状的实体,可以使用有限元网格生成器来构建网格并将单元的中心作为物质点,实际上这也是很多物质点法将连续体离散的方法。这种前处理方式无疑是耗时耗力的,严重限制了物质点法的发展。为了解决以上问题,本文开发出一种直接使用CAD数据生成物质
环氧树脂具有优异的机械性能、热稳定性、电绝缘性、耐腐蚀性和高粘结性,已被广泛用于胶粘剂、防腐涂料、电气绝缘材料和复合材料等领域。然而固化后的环氧树脂因交联密度高而表现出质脆缺点,限制了其在高韧性领域的应用。将石墨烯(GR)与环氧树脂结合得到环氧复合材料,是提高其性能的一种简便策略。然而由于两者间化学性质的差异,GR在环氧树脂中的均匀分散仍然是一个挑战。本文主要通过非共价作用的方式,在GR与芘官能团
基于微谐振器的车用质量敏感型传感器具有小尺寸、高实时性、无试剂消耗等优点,适用于气体微粒、病毒、单个有机分子等检测领域。然而,传统谐振式微质量传感器易受共模干扰(温度、封装压力)而产生信号偏移和误差,难以应用于环境多变的车载工况。已有研究表明,借助模态局部化效应可以有效提升微质量传感器的灵敏度,并同时抑制环境干扰。不足之处在于,受微尺度效应、多物理场和几何非线性的影响,使得模态局域化微质量传感器的
在结构化道路环境中,自动驾驶车辆受周围多车交互的影响,预测其他车辆对于自身的决策规划和导航控制具有十分重要的意义。预测尽可能长时域的交通参与者的行为或轨迹是当前的研究热点和难点。本文提出一种基于动态交互地图和决策森林的多类型结构化道路环境中车辆目的地预测方法。该方法的特色在于以短时域意图及轨迹预测为基础,作为可解释的长时域目的地预测的有效依据,并在开源数据集上进行预测实验,验证提出方法的有效性。在
毛细管电泳(capillary electrophoresis,CE)是一类以毛细管为分离通道、以高压直流电场为驱动力的液相分离技术,它的主要优势有简单易操作、成本低、样品消耗量小等,是现如今食品和环境中进行物质分析的重要技术之一。但由于进样量少且检测的光程短,通常需要利用富集方法来提高检测的灵敏度以满足分析的要求。本文主要研究了CE技术在食品和水中药物残留检测中的应用,根据分析物特性选择了不同的
类硅烯和类锗烯作为类卡宾化合物的类似物,拥有与类卡宾相似的化学反应特性,是重要的有机中间体。制备环丙烷类化合物的其中一种有效可行的途径就是利用类硅烯、类锗烯和含不饱和化学键的物质发生加成反应。由于它们性质活泼,目前在温和的反应条件下,合成和分离仍有难度,对其反应的研究仍显欠缺,且反应机理缺少理论支持。本研究借助量子化学计算方法,对若干类硅烯、类锗烯与醛、酮、二烯等含双键物质的加成反应机理进行了理论