基于视觉语义理解的视觉对话技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:objzobjz3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新时代下科技不断进步,社会在快速地数字化,人工智能也随即进入了蓬勃发展期。计算机视觉和自然语言处理领域内的众多基础任务已经取得了实质性的突破,如目标检测、图像分割、文本分类、机器翻译等。随着信息爆炸所带来的视觉数据及文本数据同时被大量产生,视觉与自然语言的跨模态任务正获得越来越多的关注,如跨模态检索、视觉描述生成、视觉问答、视觉对话等。其中,视觉问答作为典型的跨模态任务,旨在根据输入图片或视频,对提出的问题进行准确地回答。视觉对话则需要历史对话信息来完成多轮次的连续问答。视觉对话的核心是如何处理跨模态数据,即视觉信息和文本信息。视觉信息即为输入的图片,文本信息则包括图片描述、历史对话信息和当前问题。问题回答的关键是理解问题的文本语义,并对视觉语义信息进行推理,以完成最终答案的生成。难点在于,面对问题中可能存在代词或视觉语义较为复杂等情况,难以完成准确推理,导致回答连续性较差、精度较低。针对以上问题,本文基于对视觉语义理解的深入挖掘,提出了四种视觉对话算法,主要内容及贡献如下:1.针对视觉对话中普遍存在的视觉指代消解问题,提出一种基于自适应视觉记忆的视觉对话方法。将对话过程中已完成定位的视觉信息存储在外部的记忆库中,从而将先前方法所用的文本定位和视觉定位进行整合。在每回答一个问题时,不需要从历史对话中寻找问题中代词的具体文本指代,而是直接从视觉记忆库中进行读取。为了更好地处理依据视觉信息可直接作答的情形,在读取视觉记忆库的时候,设计了自适应的读取方式,动态地学习一个置信度。进一步地,引入视觉残差连接来进一步缓解此问题,从而更好地应对更多场景。2.针对视觉对话的复杂场景下模型推理能力不足的问题,提出一种基于结构化外部知识的视觉对话算法。首先,利用从Concept Net中获得的常识知识去缓解内部视觉特征和文本特征的不足。其次,利用图卷积神经网络来构建关于图片及文本描述的结构化知识,用以捕捉知识图谱中实体间的相关上下文信息。在公开数据集上的实验结果表明,结构化外部知识可以有效增强模型的推理能力,增强算法的鲁棒性,提升多场景下的回答精度。3.针对普通视觉对话应用的局限性,提出一种基于外部知识的以猜图为导向的视觉对话方法。该任务在普通视觉对话仅回答问题的基础上,自动生成问题,并在每一轮对话结束后,根据问答从图片库中检索语义特征最相近的图片。该方法利用提取到的关于图片及其文字描述的相关外部知识,分别增强问题的生成能力、提升答案的回答精度,同时增强猜图能力,提升最终的图片检索精度。相关实验结果证实了此方法的优越性。4.针对以猜图为导向的视觉对话中的重复性问答,提出一种基于专注记忆网络的以猜图为导向的视觉问答模型。首先,利用记忆网络学习到不同历史对话信息对于当前问题和答案生成的影响权重,用以减少冗余的对话生成,从而提升对话质量和图片检索精度。其次,设计了一个多源信息融合模块。在每一次问答时,有效地利用图片及其文字描述,使得历史信息可以集中在视觉特征上。从而使得对话可以围绕输入的图片进行,并进一步提升图片检索的精度。最终,相关的实验结果证明了多源记忆网络的有效性。最后,本文精练地总结了以上主要内容,并对未来的研究工作进行了展望,提出了切实可行的研究思路。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
学位