基于深度学习的图像文本描述自动生成方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:vickyfucandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信技术以及多媒体技术的飞速发展,人们获取知识的途径以及相互之间沟通交流的方式发生着翻天覆地的变化,越来越多的文本、图像、视频等多媒体信息不断涌入人们的视野。图像文本描述自动生成任务是一种融合图像和文本的多模态处理的关键技术,该任务结合了计算机视觉和自然语言处理两个关键领域,实现了从图像到自然语言的转换,它能够应用于基于文本内容的图像检索、网络图像分析等众多场景中。本文采用基于编码-解码的模型框架,通过学习数据集中的图像特征和文本表达方式,自动的为测试图片生成相应的文本描述。模型中涉及到两种深度神经网络,分别是卷积神经网络和循环神经网络,这两种网络近几年在机器学习领域有着广泛的应用。本文提出了基于文本牵引的注意力机制结构,将该结构分别应用于基于CNN-RNN和CNN-CNN的模型框架下,使得模型能够像人类一样思考,动态地为图像分配不同的注意力区域来生成相关的词语。本文工作和研究成果主要包括以下几个方面:(1)本文针对图像文本描述任务中,图像和文本之间底层特征的异构性问题,提出了一种寻找图像代表性的文本特征向量的方法。给定查询图像,在训练集中通过最近邻图像集的查找、“一致性语句”的选择以及语句特征的映射等一系列操作得到与查询图像最相近的文本特征向量,以此作为图像和文本跨模态数据之间的桥梁,指导图像生成文本描述语句。(2)本文设计了基于文本牵引的自适应注意力机制的CNN-RNN结构框架。在图像描述语句生成过程中,主要取决于两方面信息,一方面是图像的视觉信息,另一方面是语言模型结构。本文将文本特征向量融合到注意力机制中,使得解码器能够自适应的调整图像的视觉集中区域,从而生成更加符合人类描述的语句,能够有效提升实验效果。(3)本文设计了基于文本牵引的注意力机制的CNN-CNN结构框架。由于卷积神经网络在深度学习框架中具有并行计算和GPU加速的优势,使得可以利用多个网络层的堆叠代替循环路径来记忆上下文信息。实验中分析了网络层数和卷积核大小对实验结果的影响,并对两种模型架构的生成语句描述质量、训练时间和测试时间进行了分析比较。
其他文献
L频段数字航空通信系统1(L-DACS1)是ICAO建议的未来宽带航空数据链候选技术方案之一,该系统将部署于无线电导航频段,以内嵌方式工作于相邻测距仪(DME)波道之间,且DME系统有着
近些年来,由于模型预测控制处理约束条件和在线求解最优控制量的特点而受到越来越多的关注,无论是是工程工业领域还是学术研究领域,模型预测控制的发展都是十分迅速的。从最
目前,对于人体目标检测以及跟踪算法大多数都是在像素域上面进行的,虽然有小部分研究人员在压缩域上对人体目标的检测与跟踪算法进行了相关性研究,但大多都是针对较早的视频
重金属离子和苦味酸离子如果在生物体内累积起来,将严重威胁各种生命体的安全,因此对这些离子的检测具有重要的实际意义。荧光分子探针检测法不仅方法简便,而且在灵敏度,选择
近年来跨领域的科研合作对科技发展和学术创新有着积极影响。然而,随着科研人数的日益增长以及学术大数据的形成,研究人员想要寻找自己专业领域之外的合作者变得越来越困难和
绚丽多姿的少数民族服饰蕴含着丰富的民族历史与文化,其中具有符号象征的色彩体现了更深层的民族精神和地域特色。因此,研究少数民族服饰色彩规律及应用对于实现少数民族文化
肿瘤特别是恶性肿瘤也就是癌症,具有难以治愈、易转移、易复发的特点,是目前严重威胁人们健康和社会经济发展的疾病。传统的肿瘤治疗方案有手术、化疗、放疗等。然而,化疗通
光伏、风电等分布式电源出力的间歇性以及负荷需求的随机性给微电网功率平衡带来了新的挑战。引入储能系统可以有效解决微电网的功率不平衡问题。相对于传统集中式储能存在线
随着人类对太空探索的不断深入,能够在太空中灵活应用的空间机械臂受到越来越多的关注。在空间机械臂的应用中,机械臂的定位精度是十分重要的,高精度的定位意味着任务完成的
当前,全球互联网迅猛发展,越来越多的嵌入式设备接入网络,在交通领域形成特有的网络形式即车联网。就网络形式和架构而言,它是一种动态、实时的无线自组网络。由于技术发展还