基于深度学习的视觉问答系统研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:nihaochaochao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络在计算机视觉领域取得了突破性的进展,而神经网络语言模型和循环神经网络相关的算法的发展又推动了自然语言处理领域的进步。随着目标识别,神经网络翻译模型等相关研究领域取得了突破,视觉问答系统的研究越来越受到科研人员的重视。视觉问答系统与传统的问答系统不同之处在于,除了要理解文字形式提出的问题,还需要结合图像的内容来进行解答。为了推动视觉问答系统的研究,需要构建适合于训练模型的数据集。现有的数据集有DAQUAR,COCO-QA,Visual Genome,FVQA,VQA 1.0等等。这些数据集中的发展方向为增加图片的数量,丰富问题的内容,提高答案的准确度。目前的视觉问答算法可以分为基于传统机器学习的算法,基于联合嵌入的方法,基于注意力机制的算法,使用外部数据库算法等等。在介绍了视觉问答系统的研究现状之后,本文首先介绍了基础的神经网络模型,卷积神经网络模型,循环神经网络模型以及其改进模型长短期记忆模型,随后介绍了注意力机制以及其应用。本文发现不同的卷积神经网络模型对图像特征抽取层次不一样,因此本文使用了深度残差网络来提取图像的全局特征,用Mask R-CNN来提取图像的局部特征。另外,注意力模型来可以用来整合图像特征和问题编码,而使用堆叠的注意力模型可以进一步提高图像特征与问题编码之间的耦合性。基于以上发现,本文从网络架构,图像特征提取方式,问题编码方式以及注意力机制的使用方式详细介绍了本文所提出的两种算法:基于目标特征的视觉问答系统算法和双视角层叠注意力视觉问答系统算法。本文使用了Pytorch编程框架实现了文中提出的算法,并在VQA 1.0数据集上使用GPU进行训练以减少训练时间。针对本文提出的算法,首先通过对l2正则化,Dropout层,循环神经网络隐含层大小以及注意力层数量选取不同设置进行实验,研究其对模型整体效果的影响。实验结果表明,使用l2正则化,添加Dropout层,提高循环神经网络隐藏层大小以及使用两层注意力层有利于提高模型回答的准确度。在测试集上的实验结果表明,本文提出的算法可以从图片中提取出不同层次的信息,理解问题的含义并有效地结合两方面的信息给出合适的答案。与现有的其他模型相比,本文提出的算法在准确度方面有了一定的提升。最后本文给出了算法运行过程中的部分示例并讨论了算法的输出结果。
其他文献
工程系统通常是可修的,在其使用过程中,随着年龄的增长,由于运行条件和环境、以及维修决策等因素的影响,失效次数会越来越多。可修系统的失效过程常用失效点过程来描述,可修
本文通过分析"90后"大学生的现状,探讨了"90后"大学生所拥有的时代特点,并针对"90后"大学生这一新的教育对象,提出了做好90后大学生思想政治教育工作的应对策略。
报纸、杂志、广播电视、互联网等是大众媒体传播的主要渠道,媒体名称的翻译对于媒体的生存和流通至关重要。作为文化的载体和传播的介质,媒体的英译名称应以功能对等翻译认识观
<正> 野生淡水小龙虾(crayfish)是一种珍贵的水产经济动物,盛产于长江流域的江河湖泊、池塘水荡,其肉味鲜美、风味独特、蛋白质含量高、脂肪含量低、虾黄具有蟹黄味,尤其钙、
浙江省嘉兴市早在2009年就开始启动城乡公交运营体制改革,全市原有202辆农村客运车辆全部收归国有,转由国有公司统一经营,由政府统一进行财政补贴,实行城乡一体的2元"公益票
目的:观察滋肾疏肝法联合溴隐亭中西医结合治疗肾虚肝郁型HPRL所致月经后期的临床疗效,通过对研究结果的分析探讨其作用机理。方法:将符合本次研究所拟定纳入标准的60名患者
根据异形词群系统的结构规律,探讨系统性原则在异形词规范中应该如何应用;以《第一批异形词整理表》和《现代汉语异形词规范词典》为例,探讨这个原则目前在异形词规范中已经
常言道,找熟人,拉关系。这里指的“熟人”是彼此比较熟悉.曾经打过交道,有一定关系的却又不是十分密切的人。在移动互联网时代.又该如何珍惜“熟人”这种资源呢?
期刊
"零缺陷"的概念由菲利浦&#183;克劳士比在20世纪60年代初提出。同时期,菲根堡姆提出"全面质量管理"模式。奥润顺达集团作为节能门窗产业集团,秉持"以质量求生存、以信誉求发
类风湿性关节炎(Rheumatoid Artlhritis,RA)是一种以关节慢性炎症、滑膜组织增生和软骨、骨的侵蚀性破坏为主要表现的全身性疾病,具有较高的发病率和致残率。因其病因和发病