基于图像和文本多模态融合的视觉问答研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hnxblj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答(VQA)任务要求机器自动对关于给定图片的问题做出恰当的回答,需要模型对图像和问题都进行细粒度的语义理解,然后通过视觉推理来预测准确的答案,是一项非常有挑战性的任务。其研究成果可以被应用于跨模态检索,人机交互等场景,有着广阔的应用前景,因此该任务也逐渐成为学术界的研究热点。目前经过几年的发展,视觉问答领域已经有了长足的进步,但是在通用数据集VQA v2.0上的测试结果仍有较大提升空间,如何增强视觉问答模型鲁棒性,提高它对out-of-domain数据的泛化能力仍然是较难的问题。本文探索了这些问题,并给出了相应的解决方案。本文发现位置信息(单词在句子中位置,物体在图片中位置)对于正确回答问题有着较为关键的作用,而目前视觉问答领域则缺乏对位置信息的充分利用。早期的REGAT,Counter等处理位置信息的方法无法和当前最先进的一类以Transformer结构为基础的模型相兼容,而类Transformer视觉问答模型或是忽视位置信息,或是采用容易产生噪声的将位置编码和语义编码加和后输入的方法来处理位置信息。为此,本文提出了基于位置信息引导的多模态注意力机制,它利用位置信息引导了语言模态内自注意力,视觉模态内自注意力,以及多模态融合的过程。并且可以兼容当前最先进的类Transformer视觉问答模型,有效提高模型性能。本文分析了当前在视觉问答模型鲁棒性研究领域上的主流方法:Ensemble-based方法,发现它在训练时会让模型重点学习那些表层语义关联无法处理的训练样本,因而会缺乏对某些训练数据的学习,导致其表示能力和视觉推理能力受损。为此,本文提出了分段训练方法,将模型的推理模块和分类模块的训练过程分离开来,使模型得以学习完整的训练数据,有效增强了模型对out-of-domain数据的泛化能力。本文发现当前用于测试视觉问答模型鲁棒性的数据集VQA-CP v2.0的数据分布有偏向性,导致一些投机取巧的算法能得到较好的测试结果,例如inverse supervision方法用正确标注和错误标注交替训练模型,却能得到超过绝大多数方法的测试结果。为此,本文调整了VQA-CP v2.0训练集和测试集的数据分布,使得到的新数据集可以有效抑制inverse supervision方法,并保持了VQA-CP v2.0的难度(即新数据集也能抑制表层语义关联带来的性能增益)。
其他文献
相比文字,数字图像更具有生动性和趣味性,体现出更强大表现力,逐渐成为互联网上获取信息的重要媒介之一。随着数字图像编辑软件的发展和普及,不具备专业图像处理知识的人也能够便捷地对图像的内容进行随意改动,使用的篡改手段也多种多样,给图像篡改区域定位任务带来了前所未有的挑战。目前,大部分传统的图像篡改区域定位算法利用统计学方法提取特征,很难反映图像丰富的语义信息,具有较大的局限性。同时,基于深度学习的图像
学位
电催化水分解是产生绿色能源-氢能的有效方式之一,它由析氢反应和析氧反应两个独立的半反应所组成。其中,析氧反应涉及复杂的四电子转移过程,反应动力学缓慢,因此,开发低成本和高效的析氧电催化剂是突破这一瓶颈的有效途径。相比于单相催化剂而言,由两相或多相构成的氧化物复合材料,由于不同相间发生电子转移等协同效应可起到性能增强的作用,其被普遍认为是探寻高效电催化剂的有效策略。迄今为止,制备氧化物复合材料的方法
学位
重金属是指一类密度大于5 g/cm~3的金属元素,例如汞、镉、铬、铅、砷,钴等。镉(cadmium,Cd)作为一种重金属毒物,主要经由环境暴露和食物链进入呼吸、消化系统和血液中,对代谢、生殖及免疫系统产生不良影响。镉的污染已经造成了一系列恶性污染事件,其中比较典型的有中国的镉大米事件和日本的Itai-Itai病事件。湖南省有较多有色金属矿和冶炼区,这些区域附近土壤、作物以及水源存在镉污染情况。湘西
学位
域适应(Domain Adaptation),是解决因训练集和测试集的数据分布存在偏差而导致模型性能下降的机器学习技术。现有的域适应方法主要针对单模态数据进行设计,而对于现实世界中更为常见的多模态数据关注较少;另一方面,现有的多模态域适应方法大多将所有模态平等对待并同步地优化所有子模型,未能考虑到不同模态之间的差异性。针对上述问题,本文设计了一种全新的基于差异化学习的多模态域适应算法(Differ
学位
少样本分割任务(Few-shot Segmentation,简称FSS)的目的是利用仅包含少量标注的支持图像,从查询图像中提取出网络从未学习过的对象类。支持图像和查询图像中的对象因为拍摄角度、光照、或是物体姿态的不同,导致同一类物体在不同图片中的外表有着明显的差异,少样本分割任务也因此变得极为困难。针对少样本分割,本文提出了多尺度互注意力比较网络(Pyramid Co-Attention Comp
学位
一些心理学工作表明,人格特质能从侧面反映出面试者的适应性、社交表达、领导才能等能力。因此,基于人格特质评估的面试评价方法成为不少企业的人才初筛方式。在招聘过程中使用人格特质测试,能帮助人力资源部门更快找到合适的人选,提高员工工作满意度。随着异步视频面试逐渐成为面试的一种流行形式,一些研究者利用求职者在视频中表现出的社交信号进行自动面试评价分析。然而,现有的算法还存在着一些挑战,一方面,现有的算法不
学位
无机有机杂化材料因其结构多样性,无机和有机组分所赋予的独特性质,以及它们相互作用所产生的潜在应用前景,在近几十年来得到了广泛的研究。金属-卤素(拟卤素)化合物是一类重要的杂化功能材料,特别是金属碘酸盐化合物由于其结构可调、金属对碘阴离子具有很强的亲和力以及其各种性质(如光致发光、光/热致变色、磷光、白光和光催化等)而受到人们的特别关注。为了得到更多的结构新颖和性能优异的杂化金属碘酸盐,在本论文中我
学位
随着物联网技术飞速发展及其与人工智能的结合,气体传感器作为物联网系统气体信息的采集端,气体传感器将在保障新能源安全、治理大气污染、监测空气质量以及诊断疾病等方面发挥越来越重要的作用。其中金属氧化物半导体气体传感器因其具备全固态、体积小、器件结构简单、成本低廉、易于集成化、适用于在线监测等优点,而被广泛的研究与开发。金属氧化物半导体气体传感器的敏感层一般由纳米级金属氧化物组成,是传感器的核心部分,其
学位
肝癌在全世界范围内属于发病率和死亡率较高的癌症,早期的肝癌可以通过手术治疗,但由于肝癌的病发不容易发现病症并且肝癌被发现大部分是晚期,针对无法进行手术治疗的肝癌已经研发出靶向药或免疫药联合化疗治疗等治疗方式,但是这些治疗方式伴随着高昂的治疗费用,患者通常难以负担,因此我们想通过分析肝癌患者治疗前的血样,找到潜在的可以判断患者对免疫治疗敏感的小分子代谢物,未来应用在临床诊断为患者节省治疗费用。糖尿病
学位
多变量时间序列广泛存在于不同的领域,如医学、金融和多媒体等等。多变量时间序列分类是多变量时间序列数据挖掘领域中一个活跃的研究问题。近年来,该问题引发了广泛的关注,并且应用于不同的领域。现有的多变量时间序列分类方法可以分为基于距离,基于特征和基于模型的方法。尽管这些方法可以取得一定的效果,它们并没有很有效地建模多变量时间序列的时序动态性。如何高效地建模时间序列的时序动态信息,仍然是一个具有挑战性的问
学位