结合自然语言的视觉内容理解与推理

来源 :天津大学 | 被引量 : 0次 | 上传用户:kfcgen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着手机等智能设备的普及以及微信、抖音、知乎等社交媒体平台的流行,信息的获取、传递和处理已经逐渐从单一模态数据转变为多种模态数据的融合,例如:文本、图像和视频。因此,针对多模态数据理解和推理的研究将推动智能应用的推广和落地。将自然语言和视觉内容视为两个不同模态,本论文分别对视觉-语言多模态融合、视频内容语义描述生成、结合自然语言的3D场景定位、视觉问答与常识推理等开展研究,形成“视觉-语言”跨模态理解和推理的理论方法框架,并在“视觉-语言”人机交互上进行了应用探索。本文主要的研究内容和贡献如下:1)针对视觉-语言多模态特征融合不充分的问题,分别提出了多模态循环矩阵融合和多模态交叉卷积融合方法。其中,循环矩阵融合方法分别利用了一个循环矩阵来表示视觉和语言特征,然后通过矩阵乘法实现了多模态信息的充分融合。另外,交叉卷积融合方法分别构造了一个视觉特征卷积核和语言特征卷积核,然后通过卷积运算实现了多模态信息的融合。本文提出的这两种多模态融合方法可以提高多个“视觉-语言”跨模态理解任务的性能。2)针对序列-到-序列视频描述生成中长期信息损失和依赖关系建模不充分的问题,提出了卷积编解码与分层记忆机制。本文使用了一个序列编码器来提取视频的表示。然后,提出了卷积序列解码器和分层记忆解码器网络来生成与视频内容相匹配的描述性语句。其中,这两种解码器均采用了分层网络的结构,可以有效的缓解长期信息的损失并捕捉视频帧序列与单词序列的依赖关系。在视频描述生成以及视觉故事生成两个任务上验证了所提方法的有效性。3)针对语言-到-3D场景定位中3D点云特征表达欠语义和噪声多的问题,提出了一个图投票-匹配网络模型。首先,本文设计了一个全局-局部图模型来提取3D点的表示。然后,使用了一个图投票模块得到表示物体中心的候选投票点并使用语言特征去排除噪声的投票点。最后,通过使用迭代图匹配网络,可以有效的将3D点与语言表示进行准确的对应。多个任务以及多个数据集上的实验结果和可视化分析表明了所提方法的有效性。4)针对视觉常识推理中上下文建模弱和推理欠方向的问题,受神经科学中关于大脑连接和认知研究的启发,本文提出了一个连接认知网络模型。在这个模型中,本文提出了一个基于图的局部聚合描述模块,可以动态的捕捉到与语言内容相匹配的视觉信息。同时,考虑到推理往往具有方向性,本文设计了一个基于图的有向推理模块来获得正确的答案。在视觉常识推理任务上的实验验证了所提出方法的有效性。5)最后,在前述工作基础上,本文尝试在“视觉-语言”人机交互上进行应用探索。本文提出了一个基于提示的交互式视频描述生成任务。当模型不能生成符合人们期望的视频描述时,根据人们的提示,模型会自动调整先前的描述,从而生成满足人们期望的视觉内容语义描述。为了验证这个任务,本文提出了一个交互式的视频描述数据集。并基于这个数据集,验证了本文所提方法的有效性。
其他文献
为探究气象因素与盘锦地区水稻产量的关系,运用指数平滑系数法从2009~2018年的水稻产量中计算得出水稻的趋势产量,进而分离出其气象产量,再与盘锦地区水稻生育期5~10月的各气象因素进行相关分析,得到关键气象因子,构建预测模型并经行验证。结果表明:水稻产量与气象因素具有一定的相关性,其中,5月平均温度及7月的湿度对水稻气象产量的相关系数较高,∣r∣相对较大。用构建的预测产量模型对2009~2018
期刊
天然产物特别是二次代谢产物一直以来都是新药研发不可或缺的一部分,过去三十年上市的一千五百多种新药大部分与天然产物相关。微生物天然产物具有丰富的结构多样性,这也使其具备各种各样的生物活性,几十年来一直是药物发现和开发的主要来源。Fleming发现青霉素开启了微生物天然产物作为抗生素的大门。然而随着抗生素的广泛使用,细菌耐药性问题日趋严峻,甚至出现了表现出多重耐药性的“超级细菌”。因此寻找新的抗生素或
学位
净化去除胶体颗粒的过程几乎遍及水处理工艺。其中过滤是饮用水处理中极其重要的一个环节,它担负着水质把关的重任。因此,研究过滤过程中,胶体颗粒的迁移行为和沉积机理,具有十分重要的理论和实际意义。本文以聚苯乙烯微球来模拟胶体态污染物,旨在研究胶体颗粒在滤料中的迁移行为和沉积机理,为胶体态污染物的迁移行为和理论研究提供新方法借鉴。主要研究内容及结论如下:首先,从胶体特性(模型胶体(Model colloi
学位
饱和氮杂环化合物因其在药物研发和有机合成中的重要性而备受关注。近些年来许多科研人员在其合成策略的发展方面做出了重要贡献,并取得了很大的研究进展。与常见的含氮、氧和硫的饱和氮杂环相比,含硒饱和氮杂环的合成方法报道较少。有机硒类化合物具有重要的生物活性,但因其合成方法的缺乏导致该类化合物的研究受限。本论文基于以上的研究热点和难点,对含硒饱和氮杂环化合物的合成方法进行了研究和探索。本论文分为以下六个部分
学位
从20世纪后期开始,随着经济社会的快速发展和人口数量的急剧增长,我国的草原生态出现了大面积退化、沙化现象,而传统的行政监管模式和产权制度设计已经越来越不能满足我国草场资源利益日益复杂化的局面。于是学术界和实务界开始转向从基层社区的角度去探索草原生态治理的有效政策方案,但是内生于草原牧区的社区治理模式中,草原生态的治理同样出现了各种难题。作为一种公共资源,草原是一种特定群体内部需要采取集体行动来实现
学位
新型配电网系统中,作为管理分布式资源的一种有效手段,虚拟电厂示范点开始集中涌现。多个虚拟电厂接入配电网后,若缺乏对内部资源协调及配电网的引导机制,将导致虚拟电厂收益低下与配电网潮流越限的问题。对此,本文构建虚拟电厂内产消者互助的点对点电能共享机制,并以电价引导方式建立虚拟电厂与配电网的协同运行模型。首先,虚拟电厂内采用分布式方法协调各类型产消者的电能管理,并求得对外与配电网的交互策略;同时,配电网
期刊
随着经济不断发展,船舶运输业也取得较大进步,但船舶尾气排放对港口和周围环境的污染却愈发严重。在船舶发动机中,柴油机占有领先地位,其属于压缩发火的往复式内燃机,通常使用挥发性较差的柴油或者劣质含硫燃料油作燃料,因此其会排放大量的氮氧化物(NOx)和硫氧化物(SOx),且排放温度范围比较宽(180-500°C)。目前NH3选择性催化还原法(NH3-SCR)是最有效去除NOx的方法,但是由于SOx易转化
学位
得益于大规模高质量标注数据集,深度学习模型在计算机视觉领域取得了飞速发展,然而采集如此大规模数据集不可避免的引入错误标注的标签,也就是形成了标签噪声问题。受标签噪声的影响,深度学习模型在训练过程中对标签噪声过拟合,最终影响深度学习模型的性能。且标签噪声在许多高端、精密的实际应用场景中广泛存在,如无人驾驶、故障诊断等领域。因此,提出标签噪声鲁棒深度学习算法具有深远的理论和应用研究价值。所以,本文基于
学位
生物质气化技术由于其原料适用性强、产物燃气用途广等特点备受瞩目。燃气高效清洁制备和副产物灰渣处置制约生物质气化技术的可持续发展。天然矿石类(Ca O为主要活性成分)及碱金属类(尤其是K类)催化剂因成本低、活性高常用以提高气化性能。气化灰渣富含碱金属及碱土金属(AAEMs:K、Na、Ca和Mg),具有较好的催化潜力。据此,本研究提出生物质气化灰渣循环催化利用技术思路,开展了如下研究工作:(1)利用H
学位
在大数据时代,分类任务涌现出一系列新的特点。待处理的数据规模和数据维度爆炸性增长,数据中包含的类别数量也急剧地扩大,这给传统机器学习方法带来了新挑战。多粒度建模是一种利用大量数据类别间的层次关系对学习任务进行建模的方法,该方法模拟人脑的思维模式和人类处理相关任务的行为模式,基于分层抽象的类别层次结构,高效地对大规模数据进行组织、处理和检索。如何面向大规模分类任务充分地挖掘和利用数据间的层次结构和多
学位