基于实体语义信息的图像描述生成方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xuleiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是指用于解释图像内容的语言,也被称为图像注释或图像标题。图像描述生成任务则旨在通过一定的技术和方法实现图像描述的自动生成。现有方法由于存在通识实体(即图像中的对象)识别不准确和命名实体信息生成不足的问题,导致对图像中的对象识别错误或只能生成一些简单直白的描述,从而制约了图像描述生成技术在实际场景中的应用。本文针对上述两种问题,提出一种基于实体语义信息的图像描述生成方法。主要研究内容包括以下三个方面:(1)基于双向注意力机制的图像描述生成方法在现有方法中,注意力机制根据解码器中当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的破译能力将图像特征解码成文字。然而,这一单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,本文提出了一种基于双向注意力机制的图像描述生成方法,加入了由图像特征到语义信息的注意力计算,旨在根据图像内容调整解码器中的语义信息,进而生成更加准确的图像描述。本文在MSCOCO和Flickr30k两个权威的图像描述生成数据集上进行了实验,较基线模型而言,在双语评估替补(Bilingual Evaluation Understudy-4,简称BLEU-4)上可以分别提升 1.5%和0.8%,并且达到了与同期国际先进模型可比的性能。(2)图像描述生成中人名实体抽取及填充方法一条确切的描述往往包含着命名实体信息。比如,“梅西主罚点球”可以向读者传递图像中具体的主人公信息。而现有方法针对这一图像的生成结果“足球场上的一名运动员”则较为浅显,这一描述虽然概括了图像的主题,但显然缺少具体的对象。针对这一问题,本文提出了一种图像描述生成中人名实体抽取及填充方法。具体地,本文首先生成带有空槽(待填充人名实体)的初始描述;然后将人名实体抽取问题转化为智能问答问题,通过机器阅读理解模型从图像的相关文档中抽取出人名实体,并将其填充至上述空槽中。本文从维基百科爬取了(图像、描述和相关文档)三元组,构建并划分了数据集。本文基于此数据集进行了实验,在人名实体抽取的准确率上达到52.31%,较基线模型而言,本方法在BLEU-4上可提升2.93%。(3)包含多类型命名实体的图像描述生成方法包含多个命名实体的描述能够传递更为丰富的信息。比如,“刘翔在2004年雅典奥运会110米栏的决赛中夺冠”描述中,包括了人物、时间、事件等多类型的命名实体信息。为此,本文进行了包含多类型命名实体的图像描述生成方法的研究。现有方法均采用先生成模板,再填充命名实体的两阶段策略。而本文将命名实体的获取和填充问题转化为生成问题,通过一个端到端的模型,直接生成最终的图像描述。上述方法在GoodNews数据集上进行了实验。实验结果显示,该方法在BLEU评测指标上优于目前的最优模型。上述三个方面的研究中,第一部分的研究,提高了图像描述中通识实体(对象)信息的准确性。第二部分和第三部分的研究,实现了从仅包含单一命名实体到包含多类型命名实体的图像描述生成。这些研究对图像描述生成在实际场景中的应用起到了积极的作用。
其他文献
农村土地流转效率是指在农村土地流转过程中,是否促进农业增产,农民增收,促进机器化大生产,是否有效利用了农村土地资源。近年来,我国农村土地流转的规模呈上升趋势,但是从目
随着我国经济的快速发展,城市化的进程进入高潮,前进的步伐已经逐步从一线大城市转向县域、小城镇,城市与城市、城市与农村的联系与交流日渐密切,区域化、一体化发展成为大趋
有机发光二极管(OLEDs)由于其具有低成本,高亮度,大视角和能适用于柔性智能显示等优点,引起了人们的极大关注和研究。但是,按照理论分析,在常规的平面OLED发光器件中,由于金
1958年,江苏省政府为发展江苏特色手工艺,实现出口创汇并支援重工业发展,委托南京艺术学院开设了工艺美术专修科以培养工艺美术设计人才。南京艺术学院工艺美术专修科的创办
近些年,深度学习技术成为人工智能领域的研究热点,在各类学习任务中得到广泛应用,并获得不俗的表现。随着研究的深入,人们开始探索关于跨媒体数据的表达与交互,视觉问答便是
随着CT技术的发展,心脏4DCT已经成为心脏疾病诊断的重要手段,它能够反映整个心跳周期中心脏的位置及形态变化。左心室的形态和运动异常是心脏病诊断的重要依据,而左心室心肌
滚动轴承是机械设备中最重要的组成部件之一,对机械设备的安全运行提供了保障,因此,滚动轴承的故障监测就显得尤为重要。现有的滚动轴承故障监测系统大多使用有线采集滚动轴承故障信号,存在布线困难,传输距离有限和成本高等问题,而且LabVIEW软件中缺少新信号处理方法-VMD模块。VMD算法在分析处理滚动轴承故障信号时容易发生端点效应,因此需要对其进行改进。针对有线采集存在的问题,设计了无线传感发射和接收模
近年来,由于地球上干旱洪涝等自然灾害的频繁发生,全球水资源环境遭到严重破坏,地表水资源已成为我国重点保护对象之一。对于地表水资源的勘察,在各个不同领域中都是一个值得
本论文旨在探究国际教育援助的有效性以及可能影响其效果发挥的主客观因素,从而对解决发展中国家教育领域根本困境的有效援助方式进行探讨,并为我国及其他对外教育援助大国和
拓宽改建边坡工程作为公路拓宽改建的重要附属工程之一,在丘陵山地经常遇到大量的设计和治理问题,虽然国内外很早就开始了公路的拓宽改建建设,但是目前对于改建边坡的设计和治理的专门研究非常缺乏,没有形成系统的理论和方法。本文基于现有的改建边坡研究成果,依托福建地区公路拓宽改建工程的实践经验,采用有限元数值模拟的方法,以局部拓宽边坡设计中坡脚开挖拓宽的稳态演化规律和破坏机制为主要研究对象,考虑单车道和双车道