论文部分内容阅读
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。
视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文本答案。其难点在于模型既需要深入理解问题与图像,又需要对两者进行关联和融合,还要通过一定的推理得到恰当的答案。与跨媒体检索、图像描述等其他跨媒体任务相比,视觉问答更具有挑战性和代表性。视觉问答可以作为视觉图灵测试的一种有效尝试;同时,视觉问答在视觉残障辅助、少儿教育、机器人、交互系统等方面具有广阔的应用前景。
基于此背景,本文主要针对视觉问答的关键技术及其应用展开研究,对视觉问答方法模型进行了分析比较,重点探讨了如下四个问题:1)图像信息利用不足:由于数据集存在问题偏置,模型无需看到图像就能正确回答问题;2)跨模态特征的语义鸿沟:视觉与文本模态的特征对齐与融合是视觉问答中的关键技术,由语义鸿沟带来的偏差,是性能提升瓶颈的原因之一;3)模型无法识别图中文本:目前视觉问答模型在光学字符识别子问题上仍然难以求解;4)实际应用工作较少:目前针对视觉问答的研究主要是通过更好的模型和特征表达来提升在数据集上的性能,针对视觉问答在实际问题应用的探索工作还较为浅显。针对提出的问题,进行了探索,并取得了一定的进展。本文的主要贡献如下:
1.针对进一步挖掘图像的需要,本文提出基于单一图像模态的自底向上和基于视觉问答任务的自顶向下两种视觉显著性预选模型方案。(a)对于图像单模态的显著性,本文提出使用无监督自适应的滤波器对图像进行卷积和多尺度池化,通过多层级显著性计算,达到更适应的显著性检测效果。(b)对于视觉问答任务的显著性,本文采用双向循环神经网络对区域特征进行编码,得到区域之间的相关性,以此相关性作为显著性权重为后续注意力机制提供更加准确的视觉特征表达。
2.针对跨模态特征之间的固有语义鸿沟,本文提出视觉模态迁移及视觉特征增强两种求解思路。(a)对于视觉模态迁移,本文提出将图像特征表示为通用的文本描述,在与问题更一致的单一文本模态下进行问答求解,通过实验验证了有效性;(b)对于视觉模态特征增强,本文提出对区域特征采用语义的、多层级的、精炼的特征增强策略,这三种增量的策略使得区域特征表达与问题表达更一致,同时保留高层抽象语义与低层视觉属性信息,并且语义向量更准确。
3.针对识别图中文本的子问题,本文基于文本视觉问答数据集,提出统一的紧凑单词嵌入表达和双路多模态特征融合方法,解决了数据集存在的一些难点并赢得了挑战冠军。
4.针对视觉问答的实际问题应用,本文引入了一种现实世界中的抽象问题——受限通信下的协同辅助,作为对视觉问答现实应用的一种尝试。该问题描述了两个不同类型的角色在自然语言问答的协同下,共同求解困难问题的场景,以受限条件下的零样本识别任务为切入点,通过实验验证了提出方法的有效性和高效性。
本文对视觉问答及其应用的探索工作,通过了常用数据集和竞赛挑战的验证,并得到了一定认可,有望对跨媒体智能相关研究起到积极的促进作用。
视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文本答案。其难点在于模型既需要深入理解问题与图像,又需要对两者进行关联和融合,还要通过一定的推理得到恰当的答案。与跨媒体检索、图像描述等其他跨媒体任务相比,视觉问答更具有挑战性和代表性。视觉问答可以作为视觉图灵测试的一种有效尝试;同时,视觉问答在视觉残障辅助、少儿教育、机器人、交互系统等方面具有广阔的应用前景。
基于此背景,本文主要针对视觉问答的关键技术及其应用展开研究,对视觉问答方法模型进行了分析比较,重点探讨了如下四个问题:1)图像信息利用不足:由于数据集存在问题偏置,模型无需看到图像就能正确回答问题;2)跨模态特征的语义鸿沟:视觉与文本模态的特征对齐与融合是视觉问答中的关键技术,由语义鸿沟带来的偏差,是性能提升瓶颈的原因之一;3)模型无法识别图中文本:目前视觉问答模型在光学字符识别子问题上仍然难以求解;4)实际应用工作较少:目前针对视觉问答的研究主要是通过更好的模型和特征表达来提升在数据集上的性能,针对视觉问答在实际问题应用的探索工作还较为浅显。针对提出的问题,进行了探索,并取得了一定的进展。本文的主要贡献如下:
1.针对进一步挖掘图像的需要,本文提出基于单一图像模态的自底向上和基于视觉问答任务的自顶向下两种视觉显著性预选模型方案。(a)对于图像单模态的显著性,本文提出使用无监督自适应的滤波器对图像进行卷积和多尺度池化,通过多层级显著性计算,达到更适应的显著性检测效果。(b)对于视觉问答任务的显著性,本文采用双向循环神经网络对区域特征进行编码,得到区域之间的相关性,以此相关性作为显著性权重为后续注意力机制提供更加准确的视觉特征表达。
2.针对跨模态特征之间的固有语义鸿沟,本文提出视觉模态迁移及视觉特征增强两种求解思路。(a)对于视觉模态迁移,本文提出将图像特征表示为通用的文本描述,在与问题更一致的单一文本模态下进行问答求解,通过实验验证了有效性;(b)对于视觉模态特征增强,本文提出对区域特征采用语义的、多层级的、精炼的特征增强策略,这三种增量的策略使得区域特征表达与问题表达更一致,同时保留高层抽象语义与低层视觉属性信息,并且语义向量更准确。
3.针对识别图中文本的子问题,本文基于文本视觉问答数据集,提出统一的紧凑单词嵌入表达和双路多模态特征融合方法,解决了数据集存在的一些难点并赢得了挑战冠军。
4.针对视觉问答的实际问题应用,本文引入了一种现实世界中的抽象问题——受限通信下的协同辅助,作为对视觉问答现实应用的一种尝试。该问题描述了两个不同类型的角色在自然语言问答的协同下,共同求解困难问题的场景,以受限条件下的零样本识别任务为切入点,通过实验验证了提出方法的有效性和高效性。
本文对视觉问答及其应用的探索工作,通过了常用数据集和竞赛挑战的验证,并得到了一定认可,有望对跨媒体智能相关研究起到积极的促进作用。