面向多模态人机交互的语言理解与生成

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:nanguo34
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来多模态人机交互成为自然语言处理和计算机视觉领域的研究热点之一。本文主要聚焦于视觉(图像)印证下的语言理解与生成研究。考虑到人机交互的典型场景,智能人机交互系统应具备三种基本能力:回答问题、向用户提问、向用户讲述事件情节。因此,本文相应地关注以下任务:视觉问答、问题生成、视觉问题生成、故事结尾生成和图像引导的故事结尾生成。针对多模态文本生成过程中存在的对图文中的结构信息捕捉不够深入等问题,本文提出利用图卷积神经网络捕捉图像中的关系和文本中的句法依存关系等结构化信息的方法。本文的贡献总结如下:1.视觉问答旨在回答关于给定图像的自然语言问题。现有的基于图的方法只关注图像中对象之间的关系,而忽略了问题中单词之间语法依赖关系。为了同时捕捉图像中物体之间的关系和问题中单词之间的句法依赖关系,本文提出了一种新的双通道图卷积网络,以便更好地结合视觉和文本优势。2.现有问题生成模型存在两个主要缺陷:一是没有同时捕捉隐藏在上下文中的序列信息和结构信息,生成的问题质量较差。二是许多生成的问题不能由给定的上下文回答,即可回答性差。为了解决这些问题,本文提出了一种具有上下文结构信息和序列信息捕捉的实体引导问题生成模型,使用图卷积网络和双向长短时记忆网络同时捕捉上下文的结构信息和序列信息。另外,为了提高生成的问题的可答性,本文采用实体引导的方法从答案中获取问题类型,并对答案和问题类型进行共同编码。3.视觉问题生成的目的是生成一个关于给定图像的问题。以往工作主要集中在浅层图像语义信息上,忽略了给定图像所蕴含的高层语义信息,如关系、事件等。要生成更具体、语义丰富的问题,模型需要准确定位目标对象,捕捉被提问对象与周围其他对象的关系。为了提高视觉问题生成的质量,本文提出了一个基于图卷积和答案与问题类型联合编码的模型来生成问题。4.故事结尾生成的目的是为给定的故事背景创造一个合理且连贯的结尾。该任务的关键挑战是充分理解上下文,并有效捕获上下文中隐藏的逻辑信息,目前大多数生成模型没有深入地探索。为了解决这一问题,提高故事结尾句的质量,本文提出了一种上下文感知的多层图卷积-依赖解析树来更有效地捕捉依赖关系和上下文线索,利用依赖解析树隐式捕捉上下文中的关系和事件,并利用多层图卷积来更新和传递跨层表示,以获得更丰富的上下文信息。5.为了让生成的结尾句语义更加丰富、且具有一定目的性,本文提出了图像引导的故事结尾生成任务。给定一个多句话的故事情节和与结尾相关的图像,该任务力求产生符合上下文语境逻辑和相关视觉概念的故事结尾。与产生开放式结尾的故事结尾生成任务不同,图像引导的故事结尾生成的主要挑战是充分理解给定的上下文和图像,并从图像中选择挖掘适当的语义,使生成的故事结尾信息丰富、合理、连贯。针对这一挑战,本文提出了一种基于多层图卷积和级联长短时记忆网络模型。综上所述,本文聚焦于多模态人机交互中提问、回答、讲述等常见任务,利用图卷积网络强大的邻近节点聚合能力,对文本句法依存树和图像关系图进行聚合操作。通过深入挖掘文本中句子内和句子间的依赖关系以及图像中物体之间的关系,模型能够更加充分地理解输入的文本和图像信息,更加精确地进行跨模态匹配与融合,从而提升生成的质量。研究揭示了在多模态人机交互研究中,文本中句子内和句子间的依赖关系等结构化信息,有利于深入理解文本;说明了将符号表示注入神经网络,有利于文本生成质量的提升;图卷积作用于文本与图像中的结构信息,有利于促进语言和视觉模态间的对齐与融合,为多模态人机交互语言理解与生成相关研究提供了一种可行的途径。
其他文献
氧化物锂离子固体电解质因其具有高锂离子电导率、宽电化学窗口、高热稳定性和高机械强度等优点,在下一代储能电池—固态锂金属电池中被广泛研究。使用氧化物固体电解质的固态锂金属电池有望同时兼具高能量密度和高安全性,突破使用液态电解液的锂离子电池的瓶颈问题。当前由于氧化物电解质的密度较大和自身高的刚性带来的界面问题使得使用氧化物电解质的固态锂金属电池仍存在电极/电解质固-固界面阻抗高和能量密度低这两大难题。
紫外光探测器件在光通讯、光开关和光成像等领域具有广泛的应用前景。直接带隙半导体氧化锌材料的禁带宽度为3.4 e V,室温激子束缚能为60 me V,环境友好且易于制备,有望在紫外光探测领域应用。然而,本征氧化锌载流子浓度较低、电子空穴复合速率较快等缺点限制了其光探测应用。本论文针对上述问题,设计并制备基于氧化锌复合结构,包括同质结、异质结的构建及等离子金的修饰,实现了氧化锌纳米材料紫外探测器性能的
基于人类社会碳中和的远景规划以及可持续发展目标,实现人工碳循环闭环以及使用非碳基燃料已迫在眉睫。近年来,利用太阳能、风能等可再生能源作为电源的电化学合成方法,由于其环保、简易、可控的特性得到国内外研究者的广泛关注。CO2及N2的电化学还原,不仅可减少空气中的CO2排放,同时可利用地球上最广泛的资源N2和H2O生产高附加值化学品,其已成为研究热点方向。然而,目前电化学CO2或N2还原反应(ECRR或
随着电动汽车数量的迅速增长对应的安全问题也日益突显。电动汽车碰撞事故中,锂电池在机械滥用下的变形失效是导致内部短路和热失控的因素之一。论文通过试验分析、建模仿真和理论解析三种方法,揭示了车用方形锂电池在机械挤压载荷下的力学行为和变形失效,建立了预测电池结构变形失效的力学模型,改善了对方形锂电池机械滥用下内部短路失效的认知。研究从介观和宏观尺度全面地分析了方形锂电池的机械响应特性和变形失效模式,对于
背景蛋白质在生命体进行各项生理活动中必不可少。然而,与动物蛋白质相比,植物蛋白质通常被认为具有降低健康风险的作用。此外,蛋白质的多种生理活性主要通过其释放的小肽而得以实现,例如二肽、三肽和其他寡肽仅在蛋白质消化或水解时释放。这些食源性的生物活性肽可发挥免疫调节、抗菌、抗高血压、抗癌、抗衰老和阿片类物质的生理活性,能够显著调节心血管、内分泌、消化、骨骼肌和神经系统等的功能,对人体生理健康具有重要作用
低光照条件下光子不足、信噪比低,采集到的视觉数据有低对比度、色偏、噪声等严重的质量问题,这使得图像中的信息难以被有效提取,而光照和噪声在空间上的非均匀分布使得问题更为困难,这对计算机视觉系统中的图像增强和识别算法在真实场景中的应用而言是一个巨大的挑战。主流的低光照图像增强方法基于图像的Retinex分解,这是一个病态问题,而噪声的存在进一步增加了其病态性。本文首先基于噪声和光照之间的内在联系,分别
随着可再生能源、储能、需求侧资源等分布式设备的大量接入,智能配电网源荷两侧多重不确定性对于系统安全运行有着显著影响。研究能够根据系统实时状态而动态调整决策的日内优化调度策略,对于促进可再生能源消纳、提升系统运行水平意义重大。智能配电网日内优化调度本质上是一个具有高维连续-离散状态决策空间和复杂约束的随机序贯决策问题。电力系统中常用的日内优化调度算法存在过度依赖预测信息、计算复杂和最优性难以保证等缺
可拉伸导电复合材料(Stretchable Electrically Conductive Composites,SECC)是一种由可拉伸基体和导电网络组成的、在拉伸状态下仍具有导电性质的一类复合材料,在柔性电极、柔性传感材料、柔性电路及柔性储能器件中均具有广泛的应用前景,是当前柔性电子科研领域中重要的研究方向。在实际应用中,由于可拉伸导电复合材料面临动态下的使用(如往复拉伸、弯曲和扭曲等),也不
醚键和羧酸酯键是含氧聚合物中最常见的功能基团,其存在可赋予高分子材料诸多有用的性能。例如,以聚丙交酯和聚己内酯为代表的脂肪族聚酯,因主链中大量羧酸酯键的存在而具有良好的生物降解性和力学性能;聚乙二醇(PEG;或聚环氧乙烷,PEO)因独特的(CH2CH2O)n型聚醚主链结构而获得优异的链柔顺性、水溶性和生物相容性。若聚合物结构中同时含有醚键和酯键,则有机会将二者的特点融合,获得性能更加优异而丰富的含
过去二十年,聚集诱导发光(aggregation-induced emission,AIE)领域蓬勃发展,人们开发了丰富多样的AIE分子,为基础科学的研究提供了大量分子模型和素材,也为新型高性能功能材料的开发提供诸多机遇和选择。其中,杂原子的引入是AIE分子实现多样化和功能化的充要条件。本论文首先回顾了部分有代表性的含杂原子的AIE体系,介绍了其结构、性质与机理,并列举相关创新型应用。然后基于当下