【摘 要】
:
生成图片文本描述任务综合了计算机视觉(CV)和自然语言处理(NLP)这两个领域的技术,是当前人工智能领域的研究热点之一。受自然语言处理中神经机器翻译的编码-解码结构的启发,目前大
论文部分内容阅读
生成图片文本描述任务综合了计算机视觉(CV)和自然语言处理(NLP)这两个领域的技术,是当前人工智能领域的研究热点之一。受自然语言处理中神经机器翻译的编码-解码结构的启发,目前大部分生成图片文本描述的模型都基于该结构。给定一张图片,模型会用编码器对图片进行特征提取及编码,获得视觉语义信息,然后将视觉语义信息输入解码器完成初始化并开始描述语句的生成。虽然该结构的引进显著提升了生成图片文本描述模型的性能,但是该结构仍存在输出容易丢失图片主要内容描述和训练难度大等问题。 针对分类卷积神经网络提取的特征,无法提供详细的主要目标信息,导致模型输出容易丢失图片主要内容描述的问题。本文采用目标检测网络的卷积部分替代分类卷积神经网络进行图片整体特征提取,然后将目标检测的结果对应的特征图作为图片的补充特征。将以上两个特征输入结合了注意力机制的解码器,通过端到端的训练,使得模型取得了比主流方法更好的性能。 针对分类卷积神经网络提取的图片特征中主要目标信息较少,注意力机制的相关操作很难在该特征上准确关注到有意义区域的问题。本文提出了有监督的注意力机制,即在注意力机制的相关操作过程中引入查询图片的目标检测结果,将其用于相关操作中的信息筛选,剔除无意义的特征信息。实验表明,模型的输出相比其它基于注意力机制的主流方法能更好的抓取到图片中的有意义特征。 针对解码过程中递归神经网络参数量大,难以训练和优化的问题。本文提出了可并行训练、易于优化的基于混合注意力机制的解码器。其将自相关注意力机制和互相关注意力机制的结果进行混合,增大模型的感受野,让模型可以准确抓取符合解码需求的有意义特征。其也可以很方便的加入原本基于递归神经网络的模型中,以及与各种特征提取网络进行组合,具有很强的泛化能力。同时本文提出的基于混合注意力机制的生成图片文本描述模型的推断速度快,能实现视频中每帧图片描述的实时输出。最终的实验表明,基于混合注意力机制的模型能取得与基于递归神经网络的模型可比较或者更好的性能。
其他文献
视频监控系统是安全防范系统的重要组成部分,以其直观、方便、信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也有
与直流电机相比,交流电机具有运行与维护成本低,生产效率高,易于编程等优点。其中,异步电机具有结构简单、制造方便和运行可靠等优点,在工业各方面都获得了广泛的应用。矢量控制被认为是异步电机高性能控制场合应用最广泛的控制方法,可以使异步电机的动态性能与直流电机相媲美。但不论是何种交流电机,使用何种控制方法,直流母线电压的稳定与监测是系统获得良好控制性能的重要因素。而在实际应用中,对直流母线电压传感器发生
合成孔径雷达(Synthetic Aperture Radar,下简称SAR)是一种高分辨率成像雷达,具有全天候、多极化数据获取能力,近年来得到了快速发展。在SAR图像分析中,如何利用计算机自动提
对于大多数拥有视觉的生物体来说,运动感知是一项最原始与最基本的视觉功能。这是因为运动感知对于生存的重要作用,具有运动感知能力可以提高生物体在运动时的处境感知能力。同
机器人智能控制是近年来机器人控制领域研究的前沿,已被国内外研究者的广泛关注。在实际工程中,所研究的机器人往往具有高度非线性、不确定性、参数时变性和强耦合性等特征,
本论文是依托工业控制系统综合训练平台设计与研究而展开讨论的。此综合训练平台是为了满足我国现代化发展对高素质工业自动化人才培养的需要而设计开发的,该平台的设计宗旨是
汽车驾驶员疲劳检测分为接触式检测与非接触式检测,接触式测量就是直接接触驾驶员的身体,采集驾驶员的一些生理指标,通过这些指标来判断驾驶员的疲劳状态,非接触测量是指用汽
现代电力系统结构日趋复杂,并且大机组、大电网、超高压远距离交直流混合输电、广泛应用新技术和市场化运营机制已经成为其主要特征。这些特征都表明现代电网的安全性存在新的挑战,电网的稳定监控将越来越重要。母线电压相量是反映系统稳定性的最主要的状态量,电压和电流相量的实时测量可以为安全调度、稳定控制等提供有力依据。因此实时测量母线电压相量,将是电力系统稳定监视和控制的关键性与基础性问题。 作者在总结前
太阳能风能发电是当今世界上可再生能源领域中最清洁、最现实、最有开发利用前景的发电方式之一。太阳能和风能单独发电受自然条件制约比较严重,但二者在时间上和地域上具有很
本文意在提出一种行之有效基于数字水印技术的印刷品防伪算法。首先分析了数字水印技术应用到印刷品防伪涉及的几个理论,充分考虑水印嵌入后图像的可见性、算法的鲁棒性、安