【摘 要】
:
随着互联网和多媒体等高新技术的不断发展,融合视觉语言的多模态数据逐渐成为主流的信息传播媒体,与人们的现实生活息息相关。目前,针对单一模态的研究,如计算机视觉、自然语言处理等领域已取得了巨大的研究进展。如何更进一步,进行视觉和语言之间的跨模态语义理解和推理,减少模态之间的语义鸿沟,成为了一个热点问题。而视觉问答作为一个典型跨模态任务,自提出起便受到了广泛的关注。视觉问答旨在根据视觉媒体(图像/视频)
论文部分内容阅读
随着互联网和多媒体等高新技术的不断发展,融合视觉语言的多模态数据逐渐成为主流的信息传播媒体,与人们的现实生活息息相关。目前,针对单一模态的研究,如计算机视觉、自然语言处理等领域已取得了巨大的研究进展。如何更进一步,进行视觉和语言之间的跨模态语义理解和推理,减少模态之间的语义鸿沟,成为了一个热点问题。而视觉问答作为一个典型跨模态任务,自提出起便受到了广泛的关注。视觉问答旨在根据视觉媒体(图像/视频)以及与视觉内容相关的自然语言问题,预测问题的正确答案。这需要视觉问答系统1)对各个模态之中的语义信息进行有效的挖掘;2)建立各模态之间的准确关联和对齐;3)高效地融合模态信息和答案推理。针对这三个关键问题,本文从多模态语义理解的层面出发,首先提出了一种从单词到区域的注意力机制,用以获取视觉和文本模态之中与回答问题相关的语义信息。其次,设计了一种具有级联结构的问答模型,针对预测答案中潜在的语义信息进行有效挖掘和利用。之后,从跨模态关联的角度出发,深入研究问题文本和视觉目标之间的多模态关系信息。最后,充分考虑视频中多种不同层次的视觉语义信息以及文本语义信息,促进不同模态之间信息的有效融合。具体而言,本学位论文的主要研究成果包括以下几点:(1)本论文提出了一种从单词到区域的注意力网络,用以充分挖掘视觉图像与问题文中的语义信息。该方法使用更具表达能力和符合自然情况的目标区域特征作为图像表征,同时采用两种注意力网络关注问题中的关键单词和与之对应的图像目标区域,促进模型更好地理解问题文本与图像中的语义信息。实验结果表明所提方法能聚焦各模态之中重要的语义信息并取得了性能的提升。(2)本论文提出了一种级联的问答模型,将传统的单阶段视觉问答模型扩展为两阶段的结构,从而充分利用嵌入在问题答案中被现有模型忽略的语义信息。该方法首先利用一个带有协同注意力的问答模型生成问题的候选答案,然后利用另一个问答模型融合问题、答案和图像三者信息,从而预测问题的最终答案。在多个公开数据集上的实验表明所提级联问答模型能够生成高质量的候选答案并在整体性能上优于传统的单阶段模型。(3)本论文提出了一种多模态关系注意力网络,用以对问题文本和视觉目标之间的关系信息进行建模并进行有效的关联,在获取问题单词之间潜在的语义关系的同时也能精确提取视觉目标之间的空间语义关系信息。此外,该方法能够有效地结合视觉图像中的表观特征和关系特征,从而获取更好的视觉表征。在公开数据集上的实验表明所提多模态关系注意力网络能够更好地获取多种关系信息,并在整体性能上优于现有基于关系编码的方法。(4)本论文提出了一种递进的图注意力网络以回答针对视频内容所提出的问题。该方法旨在解决现有方法只能获取单一模态之间的关系,从而不能准确表示视频中复杂场景的缺点,其包含三个用于获取不同层次视觉关系的图网络,并用一种递进的方式进行连接,能够促进视频中多种视觉语义的获取以及与文本语义的融合。此外,本论文也首次发现,在一个经典的视频问答数据集TGIF-QA中存在严重的答案偏差,为解决该问题,本文在TGIF-QA的基础上重构了一个更为平衡的数据集。最后,本文简要总结了以上研究内容,对视觉问答的未来和可继续深入研究的方向进行展望,并为之后的研究者提供了新的思路。
其他文献
随着服装市场更替速度的加快以及消费者品味水平的提高,大众对于服装的选择不仅注重色彩、款式,还对服装的风格、搭配、材料等方面的要求越来越高,舒适度较高、应用场景较多、搭配较休闲的针织类服装也越来越成为广大消费者的首要选择。针织面料目前已在T恤、内衣、运动服装等方面得到广泛应用,但作为外衣穿着时,因针织工艺结构特殊,会暴露其挺括性差的特点。本课题主要研究内容是针织面料在保留其舒适、透气、弹性和延伸性好
在我国市场经济加速发展过程中,中小微民营企业凭借其灵活性、创新性和发展性的优势,为我国经济增长、就业提升、科技创新及经济结构优化提供了不竭动力。但是,随着我国经济发展步入新常态,金融市场的整体流动性出现总量盈余与结构性短缺的问题,融资困境成为阻碍中小微企业推动经济高质量发展的“拦路虎”。如何解决中小微民营企业面临的融资困境成了亟待解决的重要难题。为缓解此困境,更好促进经济发展,央行从2013年以来
目的:分析不同年龄及不同宫颈病变延安大学附属医院妇科患者的HPV感染情况,分析含HR-HPV16/18型的多重感染较单一感染对于宫颈病变严重程度的影响;分析含HR-HPV16/18型的多重感染较单一感染对宫颈癌预后的影响。研究本院含HR-HPV多重感染对宫颈病变及宫颈癌预后的影响可初步反映该地区HPV感染的分布特点、指导该地区宫颈病变及宫颈癌患者抗HPV的治疗以及有针对性疫苗的接种,也为后期更大规
目的:通过中文版蒙特利尔认知评估表(Montreal cognitive assessment,MoCA)评估肥胖与不同程度阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者认知功能的改变,爱泼沃斯嗜睡量表(Epworth Sleepinesss Scale,ESS)进行日间嗜睡程度的评估,探讨肥胖与不同程度阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者对认知功能的相关影响因素。方法:采用经多导睡
背景及目的:原发性肝癌作为一种全球十分常见的恶性肿瘤,具有较高的发病率与致死率,肝癌的分布具有地理差异、性别差异,亚洲患病总人数高于欧洲、美洲,男性患者人数多于女性。而在患病总人数上中国就达到了全球一半的比例,所以我国也被称为肝癌大国。肝癌是我国第四位常见的恶性肿瘤。在我国人民因肿瘤死亡的病因中,肺癌居第一,肝癌居第二。肝癌的预后较差,因肿瘤细胞的来源不同分为三种类型。三种类型肝癌的生物学行为各不
背景及目的:胃恶性肿瘤(gastric cancer GC)是常见的人类消化系统恶性肿瘤之一。即使随着社会经济的快速蓬勃发展和全人类寿命的普遍延长,恶性肿瘤仍是造成全球人口死亡的重要因素之一。营养状态不佳在癌症患者中很常见,尤其是消化道肿瘤患者。一项由白蛋白和血淋巴细胞计数所计算得出的指标:预后营养指数(prognostic nutritional index PNI),被临床医师用于评估患者营养
研究背景:胃癌是消化道系统中最常见的恶性肿瘤之一。根据2020年GLOBOCAN报告显示:胃癌在全球中新增病例超过100万例,其中约有769,000人死亡,发病率和死亡率在全球排名分别为第五和第四。男性发病率与女性发病率比约为2:1,尤以东亚地区为著。目前其发病原因尚不明确,可能是由于个人生活习惯(吸烟、饮酒、工作压力等)、病毒、幽门螺杆菌感染和遗传家族史等因素共同作用的结果。胃癌早期一般无特殊症
面对百年变局以及世纪疫情的严峻形势,实现民族振兴、赢得国际竞争主动的核心就是人才。党的十八大以来,习近平总书记亲自谋划人才强国建设,党的二十大更是创造性地提出教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑,提出了新时代人才工作新理念新战略新举措。近年来,扬州市高度重视人才工作,深入实施人才战略,不断优化政策执行环境,用政策吸引人才、留住人才、培育人才,持续提升人才资金的投入,为推
检验检测机构是保障经济社会高质量发展的关键力量,在提升产品质量、促进产业升级、推动社会发展等方面均起到重要保障作用,检验检测行业是新时期我国重点扶持发展的领域。早在2014年,国务院便发文要求加快发展检验检测业,鼓励不同所有制机构平等参与检验检测市场竞争。近年来,全国各地逐步推进公益类检验检测技术机构走向整合,改进机构内部管理,强化公益属性,严格执行事业单位相关政策,提升机构专业化服务水平,但是现
高功率微波技术是二十世纪七十年代基于脉冲功率技术、相对论电子学和等离子体物理而产生的一门新的学科,在国防、能源、航天和高能物理等领域具有广阔的应用前景。随着相关技术的发展和效应的牵引,高功率微波正从实验室研究向工程化应用发展。在应用需求的推动下,紧凑与拍波是当前高功率微波的两个重要研究方向。相对论磁控管具有结构紧凑和小型化的特点,同时工作磁场较低,容易实现永磁包装,具有进一步紧凑和小型化的潜力,应