【摘 要】
:
图像描述生成任务旨在根据图像内容生成自然语言描述,被广泛应用于盲人导航、儿童早教、新闻写作等领域。该任务要求算法模型不仅能够识别图像中的主要目标,还要能够理解目标之间的复杂关系。场景图是一种描述图像场景内容的结构化表示,基于场景图的图像描述生成方法能够利用场景图中的目标节点与关系边在图像与文本之间建立连接,并生成图像内容描述。然而,图像中往往有许多与描述无关的目标,导致场景图的目标节点冗余,模型生
论文部分内容阅读
图像描述生成任务旨在根据图像内容生成自然语言描述,被广泛应用于盲人导航、儿童早教、新闻写作等领域。该任务要求算法模型不仅能够识别图像中的主要目标,还要能够理解目标之间的复杂关系。场景图是一种描述图像场景内容的结构化表示,基于场景图的图像描述生成方法能够利用场景图中的目标节点与关系边在图像与文本之间建立连接,并生成图像内容描述。然而,图像中往往有许多与描述无关的目标,导致场景图的目标节点冗余,模型生成的描述不足以突出图像的主要目标。此外,准确预测关系也是基于场景图的图像描述生成方法的难点之一,利用外部知识优化场景图的关系预测是常见方法,但是主流的外部知识中存在大量标注缺失数据与冗余数据,导致模型利用外部知识生成图像描述时,对复杂关系的表达不准确。本文针对上述问题展开以下研究:(1)为了解决图像描述生成模型难以针对图像主要目标进行描述的问题,本文提出了一种基于主题场景图的图像描述生成方法。首先,利用LDA概率主题模型从图像描述中提取图像主题特征,为场景图生成提供主题信息。同时,利用显著性目标检测算法提取图像显著区域,突出图像的主题目标。其次,将图像主题特征融入场景图生成过程,优化类别标签的预测,生成LDA场景图。然后,将图像显著区域与LDA场景图相结合生成主题场景图,减少冗余目标对图像描述生成的干扰。最后,将主题场景图输入图像描述生成模型,生成图像主要目标的描述。该方法适用于基于场景图的图像描述生成模型,在MSCOCO和Visual Genome数据集上的实验证明了主题场景图对生成图像主要目标描述的有效性。(2)为了解决图像描述生成模型利用外部知识对复杂关系表达不准确的问题,本文提出了一种基于外部三元组的图像描述生成方法。该方法包括外部知识模块、场景图生成模块和关系编解码模块。首先,外部知识模块从图像描述中抽取三元组,构建外部三元组知识库,并根据图像目标从知识库中提取相似三元组和抽象三元组,过滤与目标无关的三元组,提高外部知识的利用率。其次,场景图生成模块将三元组的编码特征融入到关系预测中,为其提供先验知识的指导,提高关系预测的准确率。最后,关系编解码模块负责对三元组和场景图进行编码以及对场景图特征进行解码,生成准确表达复杂关系的图像描述。该方法在MSCOCO和Visual Genome数据集上的实验证明了外部三元组对于处理复杂关系生成准确描述的有效性。
其他文献
随着我国经济的持续发展,机动车数量不断增加,给人们提供了出行和货物运输上的极大便利,但同时也造成交通事故、道路拥塞、能源消耗过度和汽车废气污染等社会问题。自适应巡航控制(Adaptive Cruise Control,ACC)作为一种主动安全技术在避免交通事故和缓解交通拥堵等方面有重要作用。ACC系统的控制指标包括安全性、舒适性和燃油经济性等,系统性能受控制策略的影响较大,本文对ACC控制策略进行
实现基于深度学习的无人机图像实时目标检测算法优化设计及部署,在军事国防、灾害检测、智慧城市等领域具有重要的应用价值。但由于高分辨率无人机图像具有不同类型目标尺度差异大、密集小目标分布广等特点,如何兼顾检测精度和实时性的需求,仍是亟需解决的重点问题之一。红外图像目标指示性好,但纹理特征缺乏,无人机视角红外图像目标检测数据集的缺乏,阻碍了相关研究的快速发展。将检测模型移植到嵌入式设备时,如何提高推理速
制造业的发展依赖于新加工设备和工艺的出现,其中3D打印技术的出现对其推动作用不可忽视。熔融沉积成型(Fused Deposition Modeling,FDM)是目前工艺成熟且应用广泛的3D打印技术之一,因具有高材料利用率等优点发展迅速,但在加工过程中的质量与效率问题成为了限制其发展的主要因素。影响加工质量与效率的重要因素为加工参数,如打印速度、层高等参数不仅影响成型零件的表面粗糙度,也会对加工效
跟瞄系统作为激光发射系统重要的组成部分,其功能是跟踪移动目标实现激光的精准打击。激光由激光发生器产生,需要经过跟瞄系统轴系内部传输到发射系统。如果激光传输通道的密封效果不佳,会导致传输通道内外有气体交换,通道内部洁净度下降,从而影响激光的发射质量和能量。因此,需要研究激光传输通道内部的动密封。一般的激光传输通道动密封主要是O型圈+骨架密封形式,为达到密封效果,产生的摩擦力矩很大,不利于跟瞄系统的精
目的1、使用超声心动图多参数评分对射血分数保留心衰(HFpEF)患者的心脏功能进行整体评估,了解该疾病多参数评分的特征。2、通过研究认识HFpEF患者的超声心动图多参数评分与其他心功能指标的相关性。3、通过HFpEF患者超声心动图多参数评分的变化,对有氧运动治疗的疗效进行评估。方法从江苏省荣军医院住院治疗和无锡市山北街道家庭康复治疗的HFpEF患者中,选取38例患者作为干预组,选取33例患者对照组
癫痫作为一种严重的脑部神经系统疾病,通常需要结合临床症状和脑电图(Electroencephalogram)对患者进行监测、诊断、治疗。然而,由于很多类神经系统疾病,如脑炎、新生儿惊厥、儿童夜惊、脑白质病变等这些典型的神经系统疾病,有着和癫痫极其相似的临床症状,使得即使是专业的神经科医生,也需要反复观察比对患者的脑电图,导致无法及时给出有效诊断,延误病情。考虑到医生进行脑电图读图时,无法通过观察比
隐喻是日常表达和交流中一种不可替代的修辞手段,认知语言学研究表明隐喻是人类一种重要的认知手段。由于隐喻具有复杂性和微妙性的特点,它成为了自然语言处理任务中不可忽视的障碍。本文针对隐喻计算处理中的隐喻识别和隐喻释义问题进行深入分析,并结合深度学习相关技术和预训练语言模型提出了解决方案。在隐喻识别任务方面,提出基于Transformer和图卷积神经网络的隐喻识别模型,解决隐喻识别中单词和多词隐喻识别问
随着石油化工企业单套装置的处理规模越来越大,相应的离心压缩机及密封大型化成为必然趋势,而其旋转主轴轴端密封也变得越来越棘手。磁流体密封具有“零泄漏”、寿命长、应用速度范围广及可靠性高等优点,为大型离心压缩机旋转主轴轴端密封提供了解决思路。本论文针对传统密封方式难以解决大轴径离心压缩机旋转主轴线速度高所引发的密封困难问题,提出了一种带有降温和降压功能的新型组合磁流体密封装置,并通过理论分析和仿真相结
服务机器人在养老助残、病患监护、康复训练等领域具有广阔的应用前景,正逐渐成为机器人领域的研究热点。长期与人共处同一空间的服务机器人需频繁与人类进行交互。但目前人机交互技术仍不完善,尤其是其主动性、自然性与准确性有待提高。表情、头势、语音等是人类传递情绪、态度、意图等信息的重要交流方式,也是人机交互研究的热点。但实时精确的头势识别与交互目前仍是研究的难点,属于服务机器人交互领域的共性关键技术。因此,
随着5G时代来临,移动边缘计算(Mobile Edge Computing,MEC)作为一种利用网络边缘计算资源的技术正在快速发展。然而当前移动边缘环境中工作流调度仍存在许多问题:一方面,移动设备(Mobile Device,MD)的工作流调度需要提供低能耗、低延迟的服务,不合理的调度方式会严重影响用户体验,现有的工作流调度算法仍有提升空间;另一方面,边缘服务器在任务调度过程中如果不考虑可靠性约束