基于深度神经网络和注意力机制的图像问答研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cyld2006_ldcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像问答是一个很有挑战性的任务,它的目标是把计算机视觉和自然语言处理联系起来。在这个任务中,给定一张图片和一个相关的问题,我们要求机器能根据图像内容,再加上一些常识来推理得到问题的答案。因此,为了完成图像问答这个任务,机器必须具有跨模态的理解能力(视觉和语言),而这一点比那些在单一模态下的任务(图像识别,文档分类等)要求更高。图像问答这个任务的意义体现在多个方面。首先,从计算机视觉这个研究领域看,为了让机器能够充分理解图片的内容,继图片识别和描述这两个任务之后,图像问答是一个很自然的后续,因为这个任务要求对图像的内容有更精细的理解。其次,从自然语言处理这个领域看,为了能够真正理解人类的语言,如何把语言对应到视觉世界这一步是必不可少的。虽然计算机视觉和自然语言处理同属人工智能的范畴,但是从历史上看,这两个领域的发展是分开的。图像问答任务的提出表明这两个领域逐渐开始融合,而它们的融合是构建真正的通用人工智能的必经之路。近几年内,图像问答发展迅速,受到来自计算机视觉和自然语言处理领域的广泛关注,提出了很多解决这项任务的方法。大多数方法采取了一个端到端的流程,用一个预训练的卷积神经网络提取图片特征,用一个递归神经网络来表征问题,然后把图片特征和问题特征连结起来预测答案。尽管这种端到端的方法的准确率还行,但是整个图像问答的系统变成了一个黑箱,我们只知道输入和输出,却不知道中间发生了什么。因此,我们首先提出把这种端到端的系统分解成两步:解释和推理,通过对中间结果的可视化来实现一个解释性更高的图片问答模型。我们的这个模型达到了目前最高的准确率,并且具有一定程度的可解释性。此外,大多数图片问答的方法都致力于提高预测答案的准确性,但是忽略了对答案的解释。我们认为,与答案本身相比,答案的解释同样甚至更加重要,因为它使问答过程更易于理解和跟踪。为此,我们提出了“带解释的图像问答”的新任务,其中模型不仅需要预测问题的答案,同时也解释所预测的答案。我们首先构造一个新的数据集,然后在多任务学习架构中解决带解释的图像问答问题。我们开展了用户调查,以验证我们方法合成的解释的质量。而且,在这个模型中,我们引人了注意力机制,来提升模型的性能。从定量的角度看,我们的模型不仅可以产生有意义的文本句子来证明答案的正确性,还可以提高答案预测的准确率。我们的模型在一个标准的图像问答数据集上明显优于目前最先进的方法。
其他文献
随着音乐教学的专业性与认可度的不断发展,各种音乐类型不断丰富,流行音乐作为音乐教学的一大门类,在近几年更是的得到了迅猛的发展。一方面流行音乐的不断引入拓展了音乐的
通过分析当前高职计算机专业人才培养模式存在的问题,提出了"平台+方向+订单+专业拓展"的课程体系,校企共同优化了人才培养方案、人才培养模式等,并进行了实践,实现了专业设
随着现代技术的应用和经济的快速发展,房屋施工现场的平面布置越来越受到重视。合理的房屋施工现场平面布置,可以实现资源优化配置,提高施工效率。该文首先根据平面化理论布
社会经济的全球化,加大了各行各业的竞争力度,建筑企业的竞争更是逐渐的白热化。要想在经济社会发展的浪潮中博得一席之地并取得持续发展的优势,就要不断地加重对管理的重视
利用黄色、红色和黄绿色3种荧光粉混合的方法制备了一系列大功率平面发光LED光源,深入研究了黄色、红色和黄绿色3种荧光粉分别对大功率白光LED光源的发光效率、显色指数以及
按照山东省水系生态建设总体的布置思路和建设内容,对山东省水系现状及存在问题进行分析,总结分析了水系生态建设所带来的生态效益、社会效益、经济效益。
以南美白对虾为研究对象,探讨紫菜提取液、壳聚糖、茶多酚、乳酸链球菌素(Nisin)对其保鲜效果的影响,通过感官评定和菌落总数分析,研制出复合保鲜剂。结果表明,利用由0.2g/LNi—sin、
希特勒是个举世公认的典型的历史反面人物 ,他的名字往往与战争狂人、混世魔王等同义。但是 ,现在越来越多的中学生以希特勒为崇拜偶像 ,这种现象让人吃惊。为此 ,在二战史的
抗美援朝保家卫国的运动,风起云涌的在全国展开了!它已经表现了中国人民伟大的爱国热情和战斗力量。虽然在进行抗美援朝宣传教育的初期,个别地区与少数单位曾重视不够或发生