多模态图像理解关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：tangdongd

【摘要】

：

图像语义理解是计算机视觉领域的热门研究问题之一,主要包含图像分类、目标检测、语义分割和多模态图像理解(图像描述)等研究课题。多模态图像理解的目的是生成一句流畅的自

【作者】

：

孟希

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

图像场景理解编码器-解码器遮蔽非自回归解码器增强交叉熵随机弃用

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像语义理解是计算机视觉领域的热门研究问题之一,主要包含图像分类、目标检测、语义分割和多模态图像理解(图像描述)等研究课题。多模态图像理解的目的是生成一句流畅的自然语言来描述图像中的物体、关系和事件等丰富全面的内容。近年来,飞速发展的神经网络为多模态图像理解研究带来新的思路。本文主要关注如何将图像完整的语义信息表达出来,因此以多模态图像理解作为研究内容,为图像语义理解带来新的可行思路和方法。现有的多模态图像理解模型通常采用编码器-解码器框架,其中常用的自回归解码器生成的句子连贯性较好,但存在串行解码速度慢、语义不准确等问题,而传统的非自回归解码器虽然并行解码速度快,但生成的描述句子质量较差。针对两种解码器的缺点,本文首先提出遮蔽非自回归解码器;此外,现有解码器均使用交叉熵作为损失函数,存在着训练中同等对待质量不一的数据等问题,针对这一问题,本文进一步提出增强交叉熵损失和随机弃用模块。具体工作如下:1.针对自回归解码器解码速度慢、非自回归解码器生成句子质量差等问题,本文提出遮蔽非自回归解码器。本文首先选定若干种遮蔽比例,在训练过程中,给定每一对图像及其真值句子,随机选取一种遮蔽比例和若干遮蔽位置来遮蔽真值句子中的单词,训练目标是预测完整的真值句子。由于采用的解码器借鉴非自回归解码器的网络框架,因此保留非自回归方式的并行解码速度快的优点,同时采用遮蔽式的训练也融合了自回归解码的直接建模目标语言的条件式分布的优点。在预测过程中,本文采用若干个固定的阶段从完全遮蔽的单词序列到完全无遮蔽的单词序列并行生成图像描述。在MSCOCO公开数据集的实验中表明,遮蔽非自回归解码器的并行解码速度快,在4阶段和7阶段解码中是相同配置的自回归解码器的2.8倍和1.66倍;生成的描述句子的质量较高,更准确有效地保留语义内容,在更符合人类评价标准的SPICE指标上达到21.1,超过自回归解码器0.9,超过非自回归解码器4.4。2.针对交叉熵损失函数(CEL)与评价指标不一致和训练中同等对待质量不一的数据问题,本文提出增强交叉熵损失(RCEL)和随机弃用(SD)。在增强交叉熵损失函数中,本文首先利用选定的评价指标来计算每个真值句的质量得分,然后与真值句的每个单词的对数概率相乘得到损失函数;该方式将真值句的质量与损失函数结合起来,不仅区别对待质量不一的数据,还间接优化评价指标来缓解损失函数和评价指标不一致问题。在随机弃用模块中,在不损失语料库多样性的情况下,自动选择高质量的真值语句和摒弃噪声。增强交叉熵损失和随机弃用是通用的,且可结合成RCEL-SD。在MSCOCO基准数据集上的实验结果表明,本文提出的RCEL-SD在三个最新多模态图像理解模型的7个评价指标上均优于CEL,在所有模型上每个指标平均提高分值为BLEU-1 0.74,BLEU-2 0.90,BLEU-3 0.95,BLEU-4 0.85,METEOR 0.44,ROUGE 0.52,CIDEr 4.38,SPICE 0.57。

其他文献

光子晶体颗粒的制备及其在随机激光领域应用的研究

随机激光器（Random Laser）是一种新型激光器,它依靠无序结构对光子的多重散射实现激光发射。随机激光具有不需要谐振腔、结构简单等优点,受到研究者的广泛关注。但是目前随机激

学位

光子晶体随机激光阈值散射颗粒

毫米波异构网络用户关联和资源分配算法研究

二十一世纪是信息的时代,随着移动网络的快速发展,人们对无线通信的传输速率、信道容量、传输时延要求越来越高,传统的无线网络已经无法满足爆炸式增长的通信需求。目前,大量

学位

毫米波异构网络用户关联资源分配吞吐量能效

稀土元素对AZ80合金组织和性能的影响

镁合金具有比强度高、阻尼性能好、铸造性能优良等特点,但其室温强度低,塑性差,导致其应用受到严重影响。AZ系镁合金应用较为广泛,其中AZ80镁合金具有最佳的综合力学性能。故本文以AZ80合金为基础合金,通过微合金化及熔炼工艺对AZ80合金进行组织及性能优化。研究了不同稀土元素比例La:Gd对AZ80组织及性能的影响;探索了AZ80-RE合金的熔体混合搅拌熔炼工艺参数,并研究了在熔体混合熔炼工艺下,不

学位

AZ80合金LaGd稀土元素比例力学性能

超密集网络中基于分簇的能耗管理研究

超密集网络(Ultra-Dense Networks,UDN)通过大规模部署无线接入点,可以缩短用户接入距离,提高链路传输质量,增加频谱资源复用,从而可以提高用户吞吐量并满足系统容量需求。然

学位

超密集网络基站分簇能耗管理基站开/关

红外敏感型微凝胶（N-异丙基丙烯酰胺）的合成及性能表征

环境敏感型微凝胶是微凝胶家族中的特殊群体,它们能对诸如光、热、PH值等环境因素的改变而快速反应,是一种智能聚合物材料。此类材料可以在诸如药物载体,对药物进行靶向释放,以及各种热、红外传感器探头等方面有广阔的应用前景。本文主要对红外温度敏感型微凝胶的合成及其特性进行研究。首先,采用微皂或者无皂乳液的自由基聚合法,以N-异丙基丙烯酰胺(NIPAM)为主链单体;配以2-丙烯酰胺-2-甲基丙磺酸(AMPS

学位

微凝胶聚N-异丙基丙烯酰胺红外敏感温敏低临界共融温度纳米金膜等离子表面共振体

发芽粟谷中蛋白质和黄酮的提取工艺及功能特性的研究

粟谷(setaria italica L.Beauv)是我国主要杂粮作物之一,其营养成分较为完整。发芽能够转化种子中的营养物质,对人体有利的活性物质会增多,蛋白质质量及其功能特性还能被有效的提高,抗营养因子有所下降。本试验以粟谷为原料,对其进行发芽处理,测定其基本指标,优化发芽粟谷黄酮及其蛋白质的提取工艺。对各个时期发芽粟谷氨基酸含量、蛋白质二级结构相对含量和蛋白质功能特性的变化进行了分析。对纯化

学位

发芽粟谷蛋白质黄酮功能特性抗氧化

多协议视频服务平台的并发接入技术的研究与应用

随着互联网技术和流媒体技术的高速发展,高清视频服务成为人们日常生活中的重要组成部分之一。随之而来的是多种视频协议标准的出现,给视频服务平台与前后端视频设备的互联互

学位

视频服务平台多协议流媒体并发请求负载均衡

基于MVC技术架构的中职生安全教育在线学习系统

安全是指一种特定的社会状态,基于环境而言,没有危险因素,这与我们日常生活中的安全的概念是一样的,人生之旅犹如海上行船,既有风平浪静、一帆风顺的惬意与美好,也有巨浪摧残

学位

PHP安全教育MVCMySQL数据库

高功率脉冲磁控溅射沉积硬Cr涂层残余应力控制研究

涂层的残余应力水平是影响覆层零件使役性能、可靠性和持久性的关键性因素,而本征应力的控制可有效地调节涂层残余应力水平。对于能量沉积技术,离子轰击是独立于涂层生长的一种影响残余应力的因素,可显著影响本征应力大小。本文采用高功率调制脉冲磁控溅射(MPPMS)和高功率深振荡磁控溅射(DOMS)两种典型的能量沉积技术调控沉积通量离化率,通过建立两种工艺放电特征,对比两种技术沉积硬Cr涂层残余应力演化规律,进

学位

MPPMSDOMSCr涂层残余应力放电特征

单根Ni-NiO核-壳纳米线/ZnO纳米薄膜紫外光电探测器的制备及其性能测试

作为纳米材料的重要组成部分,一维（1D）纳米材料因为其独特的一维结构受到了相当多的关注。一维纳米材料具有许多优点,例如大的表面-体积比、量子限制载流子传输以及由于光散射

学位

NiO一维纳米材料ZnO薄膜动力学p-n结光电探测器

多模态图像理解关键技术研究

其他学术论文