基于多模态神经网络的图像描述方法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:wangxiaohong75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术及其应用的不断发展,神经网络算法只需要通过大量的数据以及性能卓越的硬件设备,就可以使计算机模拟人类的行为,并且应用在生活的方方面面,使人类可以更加高效的完成工作、获得可观的经济效益,促进社会的进步。图像描述结合了“自然语言处理”和“计算机视觉”两个热门研究领域,旨在使计算机在分析输入图像的视觉信息后,输出关于图像内容的连贯流畅的自然语言描述句子。目前对于图像描述生成的研究取得了快速的发展,并且衍生出很多不同的方法。然而现有的图像描述方法普遍存在生成的描述句子联系上下文长期记忆不足、生成的描述语句与图像的相关性较差等问题。本文基于多模态神经网络(multimodal Recurrent Neural Network,m-RNN),通过分析m-RNN的结构,结合当前图像处理和自然语言处理的研究前沿,从图像特征提取部分和文本序列数据处理两方面入手,找出m-RNN对于一些图像生成描述的效果不佳的问题所在,进行了以下工作:(1)探究使用卷积神经网络(Convolutional Neural Network,CNN)分析提取图像特征的功能,深入理解Vgg-16网络的逻辑内涵,在构建图像描述模型的图像特征提取部分时利用卷积注意力(Convolutional Block Attention Module,CBAM)模块优化Vgg-16网络的图像特征提取功能,通过通道注意力和空间注意力两个子模块对原始特征图进行调整,忽略原始特征中冗余无意义的特征,使保留的特征更加关注图像中目标物体本身,从而提高图像描述生成模型中图特征对图像的反映精确度。(2)探究使用门控循环单元(Gated Recurrent Unit,GRU)优化图像描述模型中的序列数据处理部分,通过GRU的更新门和重置门来调控序列数据的选择过程,改善图像描述模型中使用普通RNN产生的梯度弥散所带来的生成文本长期记忆不足的问题。然后将图像特征与序列特征相融合,实现图像描述句子的生成。(3)在数据集MSCOCO上进行实验,采用困惑度、BLEU、METEOR、CIDEr和人工主观评价等标准对比了本文方法与其他方法。并且为了验证CBAM注意力模块的效果,使用Grad-CAM可视化方法对比了Vgg-16与Vgg16+CBAM提取图像特征的可视化结果。实验验证了本文方法的有效性,证明本文方法在图像描述生成任务上的性能有所提升。
其他文献
目前,机器学习正在蓬勃发展。机器学习不仅与更快,更容易,更便宜的数据的收集与处理的方法有关,还与来自于物理学、生物学、经济等学科采集的数据进行建模的方法的发展有关。
今年9月,中央纪委国家监委驻中华全国供销合作总社纪检监察组会同总社有关部门组成5个调研组,分赴北京、天津、内蒙古等7个省(区、市)供销合作社,对供销社系统集中开展反腐败
随着人工智能技术取得了长足发展,神经网络被广泛应用到自然语言处理任务中,并且取得了革命性的进步。文本分类是自然语言处理领域的一项重要基础性任务,随着互联网上信息的
设立学校教育发展基金会是充当高校吸纳社会捐赠经费的载体成为国内外高校筹措教育经费的普遍做法和发展趋势。经过数年的运转和发展,地方高校教育发展基金会已具有一定规模,
CT(Computed Tomography)技术是X射线领域一个重要研究方向,其原理是由于物体不同部位对X射线衰减不同,从而在探测面形成X射线图像的衬度分布。通过多个角度的投影数据结合特
病理诊断是肿瘤诊断的“金标准”,然而,专业的病理科医师需要花费大量的时间在观察尺寸巨大的病理切片上,依据专业知识人为诊断肿瘤的类型和分级。现今,病理切片的制作在逐渐
近段时间以来,软测量技术已成为发展的一个重点。它收到高度青睐的原因是因为现代工业的复杂性增加了,并且随之而来是它对控制系统提出了更高的要求。软测量最大的优势就是解
机载高清语音通信(Voice over LTE,VoLTE)是指在地空无线通信系统机舱内通过LTE承载的高清语音通信,相比其他语音解决方案,VoLTE的通话质量大幅提升,呼叫连续时延大幅缩短,且
苯并(a)芘作为致癌性极强的持久性有机污染物,广泛分布在环境中,并随着降雨、工业废水、船舶漏油等途径进入水环境中,使水体中苯并(a)芘污染日益加重,从而引起广泛关注。本文选取
随着人工智能的飞速发展,自动化、智能化的交警手势识别技术的实现成为了可能,越来越多研究者投入到了交警手势识别的研究中。然而除了肢体运动的数据量的庞大外,图像帧之间